回顾一下刚才做了什么
jieba分词
正常使用就可以
输出到csv和excel中也很方便
import csv / import xlwt
写到csv中可能出现中文乱码
所以打开的时候用f=codecs.open(…) #import codecs
pkuseg分词
pip install pkuseg的时候一直断,但httperror毕竟是网络的问题,可能是连上清华源不稳定,所以重试就可以。但网络稳定的时候也没有安装成功,后来查看了pkuseg-PyPI,这里需要注意几点:
附上帮助到我的博客:
使用whl安装的话,pip install xx.whl
下载whl文件的时候要:
1. 先确认下载的是本机支持的whl,例如win/linux/max等
2. 确认python版本号,例如我的版本是python3.9.1,但这个网站release出来的版本从图中可以看到,只有cp36/37/38,所以推测pkuseg还不支持python3.9,创建了python38的环境,果然就顺利安装成功了。
对啦,不要退而求其次在conda里面下载spacy-pkuseg,下载成功后还是不好用的(python3.9是这样),所以直接pip install pkuseg好一些。