【文本分类】基于两种分类器实现影评的情感分析(SVM,KNN)

 

支持向量机(Support Vector Machine, SVM)

  1. 在这里插入图片描述
  2. 线性不可分时,就进行升维;接着就可以使用线性分类器
  3. 理论上来说,对任何分类问题,SVM都可以通过选择合适的核函数来完成
  4. 核函数的选择直接影响到 SVM分类性能的优劣,是设计SVM的关键问题
     
    在这里插入图片描述

 
 
 

K最邻近 (k-Nearest Neighbour,KNN)

  1. 核心思想非常简单:如果待测样本在特征空间中的k个邻居大多数属于某一个类别,则该样本也应属于这个类别——“物以类聚,人以群分
  2. k的选择极其重要:k太小,分类结果易受噪声点影响;k太大,邻居中又可能包含太多的其它类别的点
  3. 权的思想同样重要:显然离待测样本越近的邻居,越可信;密度越大的邻居,越可信
  4. 距离计算公式的选择也很重要:对于文本分类来说,使用余弦(cosine)来计算相似度就比欧式(Euclidean)距离更合适

 
 

代码

文本处理

from nltk.corpus import movie_reviews

# ([...], pos)
# ([...], neg)
documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)]

# 将documents「随机化」,为组成训练集和测试集作准备
import random
random.shuffle(documents)


# 挑出词频最高的2000个词,作为「特征词」 (其实去掉停词,去掉标点符号,还剩大概1800个词)
import nltk
from nltk
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值