数据处理
中科小白
这个作者很懒,什么都没留下…
展开
-
分享一个用python实现将pdf转txt的代码
问题背景:有时候需要用到pdf文件中的信息,但是pdf不易编辑,格式有局限性,需要转成txt这样的格式。目标:将给定pdf文件中的文本信息(暂时不考虑表格、图片等)抽取出来,写入txt文件中。主要工具:python的pdfminer3k库(pdfminer的python3端口,pdfminer是一个用于从文档中提取信息的工具)代码:import importlibimport sysimport timefrom pdfminer.pdfparser import P原创 2020-05-30 16:16:34 · 6031 阅读 · 4 评论 -
java中如何将json字符串解析成json对象
最近在java开发中遇到了将json字符串解析成json对象的问题,经多次尝试后找到了与自己java版本匹配的相应方法。目标:将给定的json字符串解析为相应的json对象。环境:java8代码:String jsonString = "{name:'zzd',age:'20',sex:'male',haha:'ab'}";JsonObject json = JsonParser.parseString(jsonString).getAsJsonObject();System.原创 2020-05-25 10:33:40 · 1593 阅读 · 0 评论 -
如何将flv格式的视频转换为mp4格式
flv格式到mp4格式的转换有多种方法,在这跟大家分享其中一种,就是利用ffmpeg这一开源工具。以windows 10系统为例,步骤如下:一、下载ffmpeg下载的地址为:https://ffmpeg.zeranoe.com/builds/二、解压缩将下载后的压缩包,解压在自定义的路径下三、新建bat文件在解压后的bin文件夹下,新建文本文件,内容为“cmd”,将文件...原创 2019-12-29 13:56:00 · 832 阅读 · 1 评论 -
分享一个生成包含n行自定义时间字段的文件的python代码
目的:生成包含自定义时间,如:2019/12/14 12:15 这样的字段。方法:主要是采用python的random模块生成随机数,加上字符串拼接的方法,用循环语句生成多行文件。代码示例:# coding:utf-8import randomf = open('自定义时间.csv','w')for i in range(1000): f.write('201...原创 2019-12-14 12:52:52 · 141 阅读 · 0 评论 -
如何在Excel中选中任意矩形区域
不知道是不是有小伙伴在使用Excel时也遇到过不知道怎么选定某一区域这一问题,因为如果是小区域,直接按住鼠标左键拖动就可以了,但如果要选择的区域较大,比如有几千上万行列的话,拖动时很可能手一滑就得重新来,因此在这跟大家分享一下如何快速选择任意指定区域。一、打开Excel,新建一个工作表。二、确定起始和中止单元格。如图,我们选取A4单元格为起点,K23单元格为终点。在实际中,区...原创 2019-11-26 15:59:21 · 4083 阅读 · 0 评论 -
一个简单的切分数据集的python代码
数据集:一个中文的酒店评论数据集(一万多条数据,正负向情感标注)任务:切分为训练和发展集数据集示例:代码:import osimport pandas as pdfrom sklearn.utils import shuffleif __name__ == '__main__': path = "temp/" pd_all = pd.read_csv...原创 2019-11-21 17:14:01 · 1718 阅读 · 0 评论 -
python实现中文的繁简转换
我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/安装命令:p...原创 2019-09-26 10:39:28 · 4341 阅读 · 4 评论