文本挖掘与分析第五周学习笔记1--文本分类器

目的和目标:

解释逻辑回归的基本概念,k-近邻(k-NN)和SVM,以及k-NN如何工作。
解释如何评估分类结果。
解释意见挖掘和情绪分析的任务,以及为什么从应用程序的角度来看它们是重要的任务。
解释如何使用文本分类技术来完成情绪分析,以及为什么简单地应用常规的文本分类技术可能不够。
举例说明用于描述文本数据的简单和复杂的特性,并解释NLP如何能够从文本中生成复杂的特性。
解释有序逻辑回归的基本概念及其与常规逻辑回归的区别。

指导问题

1 ) 逻辑回归分类器的一般概念是什么?它和朴素贝叶斯有什么关系?在什么条件下,逻辑回归将把朴素贝叶斯作为两类分类的特例?
2 )最近邻分类器的一般概念是什么?它是如何工作的呢?
3 )支持向量机的基本思想是什么?为了训练分类器,它优化了什么?
4)我们如何评估分类结果?
5)如何计算分类精度、精度、回忆和F值?
6)为什么在F中,谐波的平均值比精确和召回的算术平均值好?
7)宏观和微观平均的区别是什么?
8)为什么把一个分类问题作为排名问题来进行分类有时很有趣呢?
9)的意见是什么?它和事实陈述有什么不同?
10)一个观点持有者是什么?一个意见的目标是什么?
11)意见挖掘的目标是什么?
12)情感分析是什么?它与文本分类任务(如主题分类)有什么相似之处?
13)为什么unigram的特征通常不足以准确的情绪分类?
14)使用太多复杂的特性(例如频繁的解析树的子结构)有什么关系?
15)表示文本数据的常用功能有哪些?
16)有序逻辑回归的基本思想是什么?它和常规的逻辑回归有什么不同?使用顺序逻辑回归而不是常规逻辑回归的潜在优势是什么?

1.文本分类的鉴别分类器

基于朴素贝叶斯的分类器,得分函数与逻辑回归的得分函数相似
这里写图片描述

区别分类器1:逻辑回归

允许向量不一定为字母。
P(Y=1 | X)与P(Y=0 | X)的和为1.
这里写图片描述
重写Y关于X的函数,去掉LOG得到如下:Y在0到1之间。
这里写图片描述
参数估计:
某个参数分类使得分类的得分达到最高,则得到最大相似值。
这里写图片描述

区别分类器2:K-NN

算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。

  • 优点:精度高、对异常值不敏感、无数据输入假定。
  • 缺点:计算复杂度高、空间复杂度高。
  • 适用数据范围:数值型和标称型。

在多个特征,多个分类的情况下,KNN算法思想:
1. 计算预分类的与样本中的欧氏距离(当然还有其他距离);
2. 选择距离最小的K的样本;
3. 把预分类归为:K个样本中,类别最多的那个类别。
注意,在朴素基类5中,我们不需要相似函数。在逻辑回归中,我们也没有讨论这些相似函数,但这里我们明确要求一个相似函数。这个相似函数实际上是一个很好的机会让我们对这些特性进行深入了解。基本上有效的特征是那些可以使相同类别的对象看起来更相似,但是区分不同类别的对象。因此,这种相似性函数的设计与逻辑回归和其他分类器的特征设计密切相关。

这里写图片描述

如果K太小,决定不可靠;如果选的K大一点可能导致准确性下降

参数仍然需要根据经验来确定。通常,您可以通过使用交叉验证来优化这样的参数。基本上,你要把你的训练数据分成两部分然后你会用一部分来帮助你选择参数k或者其他类文件中的其他参数。然后你会假设这个数字在你的训练中很有效,这对你未来的数据是最好的。

这里写图片描述

在这个方法中所做的关键假设是,给定文档概率的标签的分布,例如,我给定的d的概率是局部平滑的。这意味着我们假设这个概率和这些区域R中的所有文档是一样的。
假设我们画一个邻域,我们假设在这个邻域因为数据实例非常相似我们假设标签的条件分布给出的数据是大致相同的。如果这些是非常不同的,那么我们就会假设,c, d, d,的概率也是一样的。但在现实中,这是否正确,取决于我们如何定义相似性。因为邻域很大程度上取决于我们的相似函数。如果我们的相似函数捕获了遵循相似分布的物体那么这些假设是可以的;但是如果我们的相似函数不能捕捉到这些,显然这些假设会是一个问题然后分类

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值