NLP情感分析——KNN算法

最新推荐文章于 2024-08-16 11:24:16 发布

SpringRolls

最新推荐文章于 2024-08-16 11:24:16 发布

阅读量1.7w

点赞数 2

文章标签： NLP 情感分析

本文链接：https://blog.csdn.net/springrolls/article/details/80228349

版权

一、基本概念

文本情感分析是对文本中的某段已知文字的两极性进行分类，判断出此文字中表述的观点是积极的、消极的、还是中性的情绪。

目前的研究方法主要有两类：一种是基于情感词典的方法，另一种是基于机器学习的方法。前者需要用到标注好的情感词典（英文/中文），通过情感词的褒贬性判断文本的情感倾向。后者是将传统的文本分类方法如朴素贝叶斯（NB）、k近邻（kNN）、最大熵、支持向量机（SVM）等算法应用于情感分类。需要大量的人工标注的语料作为训练集，通过提取文本特征，构建分类器来实现情感的分类。

二、KNN算法

在各种分类算法中，我选择了K-Nearest Neighbor(KNN) 最邻近分类算法进行简单的学习了解。KNN分类算法的思路是：如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。核心思想俗称“随大流”，基于实例的学习（instance-based learning）和懒惰学习（lazy learning）。懒惰学习：指的是在训练是仅仅是保存样本集的信息，直到测试样本到达是才进行分类决策。

KNN算法的优缺点如下：

优点：（1）简单、易实现、易理解、无需参数估计及训练；

（2）适用于对稀有时间进行分类；

（3）特别适用于多分类问题（multi-modal，分类对象具有多个类别标签），比SVM表现要好。

缺点：（分类）

（1）当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。改进方法：采用权值，与该样本距离小的邻居权值大；

（2）计算量较大，对每一个待分类的样本都要计算它与全体已知样本的距离进行排序继而求得K个最近邻点。目前常用的改进方法，事先对已知样本点进行剪辑，去除对分类作用不大的样本。该改进算法比较适用于容量大的类域，而容量较小的类域容易产生误分。