文本分类
文章平均质量分 78
tianbwin2995
这个作者很懒,什么都没留下…
展开
-
用gensim做LDA实践之文本分类
之前看LDA,一直没搞懂到底作用是什么,公式推导了一大堆,dirichlet分布求了一堆倒数,却没有真正理解精髓在哪里。最近手上遇到了一个文本分类的问题,采用普通的VSM模型的时候,运行的太慢,后来查找改进策略的时候,想起了LDA,因此把LDA重新拉回我的视线,也终于弄懂了到底是做什么的。LDA本质是一种降维为什么这么说,因为在我的文本分类问题中,文本共有290w个,根据词项得到的维度为90w个,这原创 2016-06-27 14:43:22 · 21991 阅读 · 14 评论 -
文本分类
概览 自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。 所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务的重要组成部分转载 2016-06-15 13:41:04 · 1272 阅读 · 0 评论 -
文本分类中的特征选择
面试中被问到的一个问题,如何对文本划分类别?我提出用bag of words进行分类,但是词汇的数量比较大,特征维度比较高,涉及到特征选择的问题,我的回答是用图像中常见的LDA,PCA特征降维,但是翻看NLP相关的文献才知道一般是采用互信息,卡方统计量和词频分析。互信息与信息增益是等价的。 把文档分成体育、游戏、娱乐这三类的例子中,如果一个单词在三类文档中出现的概率相同,那么这个单词对分类无意义,转载 2016-06-16 11:26:54 · 2583 阅读 · 0 评论 -
sklearn文本特征提取
词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说:标记(tokenizing)文本以及为每一个可能的标记(token)分配的一转载 2016-06-16 17:24:13 · 5249 阅读 · 0 评论 -
用Python开始机器学习(5:文本特征抽取与向量化)
http://blog.csdn.net/lsldd/article/details/41520953假设我们刚看完诺兰的大片《星际穿越》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这类问题处理的第一步,就是将文本转换为特征。因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量化。由于中文的处理涉转载 2016-06-16 17:25:10 · 700 阅读 · 0 评论