【文本分类】基于两种分类器实现影评的情感分析（SVM，KNN）

最新推荐文章于 2025-02-21 15:57:47 发布

samarua

最新推荐文章于 2025-02-21 15:57:47 发布

阅读量8.1k

点赞数 8

分类专栏： # NLP 自然语言处理文章标签：机器学习 SVM KNN 分类器 nlp

本文链接：https://blog.csdn.net/m0_46202073/article/details/109319117

版权

支持向量机（Support Vector Machine， SVM）

当线性不可分时，就进行升维；接着就可以使用线性分类器了
理论上来说，对任何分类问题，SVM都可以通过选择合适的核函数来完成
核函数的选择直接影响到 SVM分类性能的优劣，是设计SVM的关键问题

K最邻近（k-Nearest Neighbour，KNN）

核心思想非常简单：如果待测样本在特征空间中的k个邻居大多数属于某一个类别，则该样本也应属于这个类别——“物以类聚，人以群分”
k的选择极其重要：k太小，分类结果易受噪声点影响；k太大，邻居中又可能包含太多的其它类别的点
权的思想同样重要：显然离待测样本越近的邻居，越可信；密度越大的邻居，越可信
距离计算公式的选择也很重要：对于文本分类来说，使用余弦(cosine)来计算相似度就比欧式(Euclidean)距离更合适

代码

▶ 文本处理

from nltk.corpus import movie_reviews

# ([...], pos)
# ([...], neg)
documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)]

# 将documents「随机化」，为组成训练集和测试集作准备
import random
random.shuffle(documents)


# 挑出词频最高的2000个词，作为「特征词」 (其实去掉停词，去掉标点符号，还剩大概1800个词)
import nltk
from nltk