文本分类问题汇总

最新推荐文章于 2022-10-24 17:41:51 发布

weixin_30517001

最新推荐文章于 2022-10-24 17:41:51 发布

阅读量1.2k

点赞数

文章标签：人工智能开发工具 python

原文链接：http://www.cnblogs.com/lfz1211/p/10746134.html

版权

无法在VS code的控制台输入内容：
打开设置，输入run in terminal
勾选
保存分类器训练好的模型和t训练好的fidf词典：
from sklearn.externals import joblib
joblib.dump(model,filename)#保存
joblib.load(filename)#调用
中文乱码：
import sys,io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
或先解码再编码
字符串与列表相互转换：
list=str.split("分割符")
str="分割符".join(list)
jibea分词中添加规则，如禁止某些此拆分或拆分某些词：
jieba.suggest_freq('不拆分词',True)
jieba.suggest_freq('拆分','词',True)
LDA模型聚类步骤：（无监督学习）
1.将数据转换为list of list的结构
2.将数据构造为字典：dictionary=corpora.Dictionary(result) corpora属于gensim库
3.将数据的每一部分转换为稀疏向量：corpus=[dictionary.doc2bow(sentence) for sentence in result]
4.转换为tfidf指数
5.确定聚类数目，输入tfidf特征矩阵，调用LDA模型
CountVectorizer和TfidfVectorizer的对比：
前者单纯考虑词频，后者考虑tfidf指数：即在本文出现的频率（词频）和在其他文本出现的频率（逆文本频率）。当tf高，idf低时该词区分度高。