![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
canf07
篮球,win32编程,C#
展开
-
java中科院分词配置(ICTCLAS) 转
最近在做文本资源整理,主要是做一些分词,词频统计,情感分析。上网搜了一下,中科院分词配置(ICTCLAS)属于开源比较不错的工具,于是拿来用一下,但出现了很多问题。按照这篇文章的方法,总算把程序跑通了,留个痕迹,方便以后再找。 之前零零散散用过几次,配置好了就没管过。后来再用的时候就忘了怎么配置,又找了很多资料(太麻烦了)。现总结一下当作笔记: 首先,下载中科院分词项目转载 2017-05-25 14:19:35 · 438 阅读 · 0 评论 -
NLPIR用户词典使用不成功问题
最近在尝试做文本分类统计,中科院的分词软件确实很好用。 在使用过程中,导入用户词典,一直不成功,只显示导入了多少个词典。最后终于发现了问题所在,在windows下文本文档编码格式为ANSI,需要将编码格式转为utf-8。原创 2018-01-02 11:01:50 · 927 阅读 · 0 评论 -
数据分析实战45讲——第二关代码
参考了大白牙和唐吉柯德的代码! 重在参与,重在学习 import os import jieba from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn import metrics # 停用词表地址 #stop_w...原创 2019-02-14 11:27:25 · 524 阅读 · 0 评论