1. K最近邻(k-Nearest Neighbor)分类算法
采用测量不同特征值之间的距离方法进行分类。
K近邻分类算法的主要思想:如果一个样本在特征空间中的k个最相似)的样本中的大多数属于某一个类别,则该样本也属于这个类别
(这里对于最相似的判定主要是通过特征值向量的距离)
1.1. 算法特点及伪代码
- KNN算法中,所选择的邻居都是已经正确分类的对象(训练集)
- KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
- 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数
伪代码描述
|
|
1.2. Python实现
这篇博文写的有些匆忙, 如果以后有时间的话, 我会进行重新整理
- 特征抽取, 对于每个类别的文本进行特征抽取, 获取特征词集合, 用于匹配测试文本, 生成特征向量
|
|