python
中科小白
这个作者很懒,什么都没留下…
展开
-
如何将中文文档语料训练成词向量
准备需要训练的原始语料在这里,我们采用docx文档作为原始语料:如图所示,这些文档是我用到的语料。将语料转换为txt文件格式代码如下:import osimport docxdef docx_to_txt(): # 打开文件 files = os.listdir('./corpus') with open('corpus.txt', 'w+', encoding='utf-8') as f: for file_name in file原创 2020-12-22 21:33:47 · 2328 阅读 · 7 评论 -
python实现将excel / csv数据导入neo4j
问题场景:neo4j是学习知识图谱很好用的一个工具,在手动构建知识图谱时,可以通过python代码来实现读取excel或csv数据,并将数据导入neo4j库中。数据示例:代码示例:# -*- coding: utf-8 -*-from py2neo import Graph, Node, Relationship, NodeMatcherimport pandas as ...原创 2020-03-24 19:47:18 · 7520 阅读 · 4 评论 -
python实现将多个文件内容合并到一个文件
问题场景:有时候需要将数十个甚至上百个txt或其他格式的文件内容合并到一起,如果一个个复制粘贴显然太费功夫,因此可以用代码实现文件内容的合并。代码示例:import osimport linecachedef combine_file(): # 读取指定路径下的所有文件并放入到列表中 root = input('please input the dir:')...原创 2020-03-16 15:51:39 · 13257 阅读 · 9 评论 -
分享一个生成包含n行自定义时间字段的文件的python代码
目的:生成包含自定义时间,如:2019/12/14 12:15 这样的字段。方法:主要是采用python的random模块生成随机数,加上字符串拼接的方法,用循环语句生成多行文件。代码示例:# coding:utf-8import randomf = open('自定义时间.csv','w')for i in range(1000): f.write('201...原创 2019-12-14 12:52:52 · 120 阅读 · 0 评论 -
一个简单的切分数据集的python代码
数据集:一个中文的酒店评论数据集(一万多条数据,正负向情感标注)任务:切分为训练和发展集数据集示例:代码:import osimport pandas as pdfrom sklearn.utils import shuffleif __name__ == '__main__': path = "temp/" pd_all = pd.read_csv...原创 2019-11-21 17:14:01 · 1673 阅读 · 0 评论 -
推荐两款自己常用的Python代码编辑器
一、Notepad++严格来说,Notepad++是一款文本编辑器,但用的多了,就也习惯拿来查看和编写python代码了。其界面很简洁清晰,显示文本或代码时很一目了然。不足之处是在编写python代码时,不会给出错误提示,也无法直接编译运行。二、PyCharmPyCharm 是一款专业的IDE工具,功能强大。其编写代码非常方便,不仅会提示补全之前输过的代码词,还能自动缩进...原创 2019-10-28 10:37:44 · 1050 阅读 · 0 评论 -
一些github项目分享
NLP刘知远的NLP研究入门之道:https://github.com/zibuyu/research_tao自然语言处理进展跟踪:https://github.com/sebastianruder/NLP-progress影评情感分析(LSTM+attention):https://github.com/bingshen/kaggle_emotion_classify信息抽取:...原创 2019-09-30 17:22:49 · 233 阅读 · 0 评论 -
python实现中文的繁简转换
我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/安装命令:p...原创 2019-09-26 10:39:28 · 4215 阅读 · 4 评论 -
如何读取csv文件并将其转化为tsv文件
csv:逗号分隔符文件tsv:制表分隔符文件二者本质上都属于类文本文件,一般用excel和文本编辑器均可打开。如果是在程序中读取,并进行相互转化,可以用pandas这个python库。以下给出一个代码示例:csv-tsv.pyimport pandas as pdfrom sklearn.utils import shuffle # 用于数据的随机排列,也可不用...原创 2019-09-17 15:05:48 · 7467 阅读 · 2 评论 -
介绍一个获取金融相关数据的包Tushare
朋友想做一个金融方面的知识图谱,搜索了半天,发现有一个工具可以获取大量金融数据-Tushare。它的使用对象有多种,如量化投资分析师(Quant)、对金融市场进行大数据分析的企业和个人、开发以证券为基础的金融类产品和解决方案的公司、正在学习利用python进行数据分析的人。但Tushare不是普通炒股者用的软件,而是为那些有兴趣做股票期货数据分析的人提供pandas矩阵数据的工具,至于能不能用来炒...原创 2019-09-16 19:29:25 · 203 阅读 · 0 评论 -
bert模型代码运行文档
#1. 了解Bert是什么,找到原始文章和源码 BERT,全称是Bidirectional Encoder Representations from Transformers,是一种预训练语言表示的新方法。 Bert是2018年由Google AI团队开源的NLP模型,引起业内巨大反响,因为其在多项NLP任务上均超过当前的state-of-the-art。 Bert的原始论文为《BE...原创 2019-08-27 19:14:32 · 1090 阅读 · 0 评论 -
使用python中wordcloud模块生成词云图
词云图直观形象、清晰明了,可以展示很多信息。1. 安装wordcloud模块pip install wordcloud2. 下载相关代码资源包并解压wget http://github.com/amueller/word_cloud/archive/master.zipunzip master.ziprm master.zipcd word_...原创 2019-08-17 17:49:59 · 976 阅读 · 0 评论