支持向量机(Support Vector Machine, SVM)
- 当线性不可分时,就进行升维;接着就可以使用线性分类器了
- 理论上来说,对任何分类问题,SVM都可以通过选择合适的核函数来完成
- 核函数的选择直接影响到 SVM分类性能的优劣,是设计SVM的关键问题
K最邻近 (k-Nearest Neighbour,KNN)
- 核心思想非常简单:如果待测样本在特征空间中的k个邻居大多数属于某一个类别,则该样本也应属于这个类别——“物以类聚,人以群分”
- k的选择极其重要:k太小,分类结果易受噪声点影响;k太大,邻居中又可能包含太多的其它类别的点
- 权的思想同样重要:显然离待测样本越近的邻居,越可信;密度越大的邻居,越可信
- 距离计算公式的选择也很重要:对于文本分类来说,使用余弦(cosine)来计算相似度就比欧式(Euclidean)距离更合适
代码
▶ 文本处理
from nltk.corpus import movie_reviews
# ([...], pos)
# ([...], neg)
documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)]
# 将documents「随机化」,为组成训练集和测试集作准备
import random
random.shuffle(documents)
# 挑出词频最高的2000个词,作为「特征词」 (其实去掉停词,去掉标点符号,还剩大概1800个词)
import nltk
from nltk