工作中遇到nlp相关的问题,从接手到今天有了一点眉目差不多三周时间。由于之前只是在理论上知道有nlp这一回事,这次的实践遇到很多坑,过程磕磕碰碰经历得很痛苦,在此记录下,以便有与我相似需求的同学有一点参考资料。
首先我的工作环境是Windows7 64+Anaconda+Python 3.6,明确自己的工作环境很重要,因为在网上查找资料时很多解决方案都不适用于我这个环境,如果用的是linux/os的系统应该会轻松很多。
1、中文分词--结巴
在Anacona Prompt(Anacona的cmd)中执行
conda install jieba
正常情况下会自动下载jieba及其依赖的包,这里需要注意的是在使用Anaconda时优先考虑使用conda install 命令,而不是pip install(虽然我用pip安装好像也没什么问题)
关于结巴分词的详情参考官网:
https://github.com/fxsjy/jieba
2、直观展示--词云
初步展示分词的结果,词云是最直观的方式,这里我参考了
https://blog.csdn.net/FontThrone/article/details/72782971
3、fastText安装--坑、坑、坑
fastText安装过程真可谓摔得我鼻青脸肿,曾因为不同版本的fastText而遇到各种问题,在csdn、github、stack overflow、zhihu上迷失了自我,这里我对各个版本作一个汇总。
先说两个我没走通的:
1、https://pypi.org/project/fasttext/
pypi官网上的这个fasttext,安装方法是
pip in