在Windows下安装fasttext,并对中文文本进行Text classification

本文记录了在Windows7 + Anaconda + Python 3.6环境下,使用jieba进行中文分词,通过词云展示结果,以及安装和使用Facebook的fastText进行文本分类的过程。在fastText安装过程中遇到了Microsoft Visual C++ 14.0的依赖问题,通过下载Visual Studio 2017解决。最终,训练数据集的格式问题导致分类结果出错,参照官方文档和示例修复了问题。
摘要由CSDN通过智能技术生成

工作中遇到nlp相关的问题,从接手到今天有了一点眉目差不多三周时间。由于之前只是在理论上知道有nlp这一回事,这次的实践遇到很多坑,过程磕磕碰碰经历得很痛苦,在此记录下,以便有与我相似需求的同学有一点参考资料。

     首先我的工作环境是Windows7 64+Anaconda+Python 3.6,明确自己的工作环境很重要,因为在网上查找资料时很多解决方案都不适用于我这个环境,如果用的是linux/os的系统应该会轻松很多。

1、中文分词--结巴

在Anacona Prompt(Anacona的cmd)中执行

conda install jieba

正常情况下会自动下载jieba及其依赖的包,这里需要注意的是在使用Anaconda时优先考虑使用conda  install 命令,而不是pip install(虽然我用pip安装好像也没什么问题)

关于结巴分词的详情参考官网:

https://github.com/fxsjy/jieba

2、直观展示--词云

初步展示分词的结果,词云是最直观的方式,这里我参考了

https://blog.csdn.net/FontThrone/article/details/72782971

3、fastText安装--坑、坑、坑

fastText安装过程真可谓摔得我鼻青脸肿,曾因为不同版本的fastText而遇到各种问题,在csdn、github、stack overflow、zhihu上迷失了自我,这里我对各个版本作一个汇总。

先说两个我没走通的:

    1、https://pypi.org/project/fasttext/

pypi官网上的这个fasttext,安装方法是 

pip in

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值