文本分类
文章平均质量分 95
算法小白_gyl
这个作者很懒,什么都没留下…
展开
-
文本分类问题中数据不均衡的解决方法的探索
Data Skew数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。数据倾斜的解决方法1.过采样和欠采样过采样 过采样是处理样本不均衡的一个基本解决方法,其实现简原创 2018-01-11 16:24:13 · 7796 阅读 · 10 评论 -
文本分类中的文本特征表示
Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分。目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站。之前知乎针对该问题在著名的机器学习比赛网上,还开展了比赛,有关技术和code有很多。文本话题分析主要是应用是对文本进行领域划分、个性化推荐、社交网络、广告预测等各个领域等。而特征选择会对分类结果产生极大的影响。因此,原创 2018-01-11 16:49:45 · 13092 阅读 · 5 评论 -
Biterm Topic Model(BTM)的python 实现
Biterm Topic Model(BTM)的python 实现前言 最近在看话题模型相关的论文。有关话题模型现在比较主流的解决方法有LDA,PLSA以及mixture of unigrams,本人研究了LDA(Latent Dirichlet Allocation),BTM等话题模型。首先说明在研究和实验LDA话题模型时发现,在解决short text话题分析时,这是由于其基于文原创 2017-10-16 15:50:45 · 18284 阅读 · 47 评论