文本挖掘与分析
文章平均质量分 92
公子若
这个作者很懒,什么都没留下…
展开
-
Text mining and analytics学习笔记——第二周
导读:1)什么是熵?对于什么样的随机变量,熵函数分别达到最小值和最大值? 2)什么是条件熵? 3)条件熵H(X | Y)和熵H(X)之间的关系是什么?哪个更大? 4)如何用条件熵来发现组合关系? 5)什么是互信息我(X; Y)?它与熵H(X)和条件熵H(X | Y)有什么关系? 6)I(X; Y)的最小值是多少?它是对称的吗? 7)对于什么样的X和Y,互信息I(X; Y)是否达到最小值?原创 2017-12-22 21:50:24 · 1176 阅读 · 0 评论 -
Text mining and analytics第三周学习笔记
指导性问题:(1)什么是混合模型?一般来说,如何计算从混合模型中观察特定单词的概率?这个概率表达式的一般形式是什么? (2)混合模型的分量词分布的最大似然估计是什么样的?他们在什么意义上“协作”和/或“竞争”?为什么我们可以使用固定的背景词分布来强制发现的主题词分布,以减少它在常见的(通常是非内容的)词上的概率? (3)EM算法的基本思想是什么? E步骤通常会做什么? M-step通常会做什么?原创 2017-12-31 12:41:53 · 590 阅读 · 0 评论 -
文本挖掘与分析第五周学习笔记1--文本分类器
目的和目标:解释逻辑回归的基本概念,k-近邻(k-NN)和SVM,以及k-NN如何工作。 解释如何评估分类结果。 解释意见挖掘和情绪分析的任务,以及为什么从应用程序的角度来看它们是重要的任务。 解释如何使用文本分类技术来完成情绪分析,以及为什么简单地应用常规的文本分类技术可能不够。 举例说明用于描述文本数据的简单和复杂的特性,并解释NLP如何能够从文本中生成复杂的特性。 解释有序逻辑回归的原创 2018-02-03 23:07:16 · 1430 阅读 · 0 评论 -
文本挖掘与分析第五周学习笔记2--评估文本分类结果
如何评估分类结果:方法:Cranfield创造检验校正: ground truth:可以重复检验不同的系统,进行比较。 比较系统分类的结果 比较系统决策:哪个文档应该属于哪个分类;作者设定了哪些分类给文档 量化决定的相似度;等价衡量系统输出和理想输出之间的不同 比较方法时可以不考虑误差差异,允许误差的存在。 分类正确率:衡量正确决定率的基础人决定:正确(+);错误(-) 系统决定:正确原创 2018-02-05 00:11:57 · 1214 阅读 · 0 评论 -
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析
知识图谱定位:1.情感分析的动机1.主观与客观的情绪两种方式:摄影记录,文本采集。 文本比摄影更具有信息优势,由于可以借助办公机会。 2.观点是什么?观点:常等同于主观声明,代表一个人所相信的,对某件事的想法。 1)观点的主观性与客观存在对立面:主观性是无法证明对错的,而客观是可以证明对错的。例如:电脑有一个屏幕和一个电池,这是可以检查是否正确的;而你说电脑有一个好屏幕,这是无法判断正确与错误原创 2018-02-10 06:51:29 · 7460 阅读 · 0 评论