![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python 文本分析
北欧VI海盗
这个作者很懒,什么都没留下…
展开
-
jieba库的安装
jieba库安装过程及出现的问题原创 2018-03-27 17:17:48 · 10028 阅读 · 0 评论 -
word2vec聚类
评论抓取、去重、去标点符号、词性标注+分词、去停用词 (linux上,txt存为默认,不用存utf-8;win上txt存utf-8)安装linux 使用VMware安装CentOS7详请 https://blog.csdn.net/hui_2016/article/details/68927487安装vmware tool 工具 VMWare里CentOS7与win10共享文件 ht...转载 2018-04-10 15:13:02 · 1276 阅读 · 0 评论 -
gensim库的安装
pip install gensim参考:https://blog.csdn.net/churximi/article/details/51364518转载 2018-03-29 15:43:47 · 2618 阅读 · 0 评论 -
读写csv时,mac不出错,但win总乱码
出现问题: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xab in position 11126: illegal multibyte sequence解决办法: 1.读取时加encoding='utf-8',如下:open(r'C:\Z2programe\当当文学图书语料库\data\ID汇总.csv',enco...原创 2018-03-29 15:51:15 · 309 阅读 · 0 评论 -
python分词工具使用
官网:http://hanlp.com安装pip install pyhanlp若报错“缺少VC++组件”,则需要在 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 网站找到JPype1-0.6.2-cp36-cp36m-win_amd64.whl ,点击下载,当下载地址输入pip install JPype1-0.6.3-cp36-cp36m-...原创 2019-05-24 02:33:22 · 319 阅读 · 0 评论