文本特征选择
Seepen_L
一个人必须不停地写作,才能不被茫茫人海湮灭。
展开
-
中文文本分类_特征选择算法初探
中文文本分类之特征选择0 数据集回顾一点更改1 特征选择_谁更重要?1.1 预处理1.2 三种特征选择方法互信息(Mutual Information)文档频率(Document Frequency)卡方检验(CHI)集成函数1.3 主函调用2 运行结果MI_result3 Reference 0 数据集回顾 一点更改 看过我上篇文章的同学可能还记得我们最后处理得到的训练集,是每个分类一个大txt...原创 2020-04-07 23:32:25 · 1359 阅读 · 2 评论 -
中文文本分类_预处理
中文文本分类之数据预处理0 前期准备语料库停用词其他1 正则匹配* 针对搜狗语料的xml正则匹配出内容和类别2 分训练集和测试集3 合并训练集4 jieba分词收尾 0 前期准备 语料库 我做的是中文新闻分类,新闻分类现有的较流行的语料库包括搜狗新闻语料库、T大的数据、复旦的数据等等。论文看得不算多,找数据的话随便看几篇就知道啦。链接不放了,随便一搜就找得到。 对了,吐槽一下搜狗新闻的语料。如果你...原创 2020-04-07 00:36:29 · 2421 阅读 · 0 评论