自然语言处理
文章平均质量分 59
Wordsky
这个作者很懒,什么都没留下…
展开
-
win64 安装 python + NLTK(附 python MemoryError 解决方法)
如果使用scikit模块进行自然语言处理的话,python最好安装32位的,这可以跟后面使用的 模块配套。 更为重要的是,一旦你的数据量比较大的时候,可能出现系统内存不够MemoryError 的情况,这个时候你就 需要使用64位系统,就像我现在做的工作一样。类似的问题:Python MemoryError when doing fitting with Scikit-learn1. pip原创 2017-03-20 21:09:29 · 3992 阅读 · 0 评论 -
情感分析资源收集
代词 http://xh.5156edu.com/page/z2190m2907j18579.html 语气词 http://baike.baidu.com/item/语气词?fr=aladdin 连词 http://xh.5156edu.com/page/z7501m8716j18595.html 能愿动词 http://baike.baidu.com/link?url=ijNr原创 2017-04-01 15:43:17 · 632 阅读 · 0 评论 -
No module named 'scipy'问题 与 python中 scipy模块的安装
安装环境win32 + python 3.5安装过程先要安装numpy 模块才能安装 scipy,这个你在pip install scipy 的时候,会提示你的,于是先安装numpy: pip install numpy 然后在官网上下载scipy安装包(注意windows版本)目前这个软件(.exe)是scipy -0.16.1版本的,支持python3.4 版本,如果你的python版本不是3.原创 2017-03-15 16:41:42 · 54251 阅读 · 0 评论 -
python 处理movie-review-data遇到的UnicodeDecodeError 编码问题
问题描述:下载了Bo Pang的主客观数据集,在使用py3 读取quote文件时,产生了错误,如下:UnicodeDecodeError: 'gbk' codec can't decode byte 0x96 in position 4990: illegal multibyte sequence问题分析:显然是解码的问题,也就是使用 gbk 编码无法解码该文本位置为4990处的 字节内容。那就是原创 2017-03-13 21:21:36 · 779 阅读 · 0 评论 -
文档特征提取
只是想说,nltk 提供的分类器也能使用数值型的特征权重,可以参考书245原创 2017-04-30 23:41:46 · 498 阅读 · 0 评论