Knn的思路为:
1.首先要将需要处理的信息项如一部电影,一篇文章做数值化处理。
以电影为例:一部电影包含的打斗镜头数量,一部电影包含的接吻镜头数量。 通过这两个特征来评价一部电影是动作片还是爱情片。
2.计算已知标签的数据集合的上述这些特征值所代表的每一个数据点与需要评估的数据点之间的距离
3.选择与目标点距离最近的k个点。
4.查看他们的标签都是什么,统计这些标签出现次数最多的标签的1个或者几个,用它做为带评估数据的标签。
所以简单的程序如下:
package org.algorithm.knn;
import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
public class Knn {
private int[] unknowmovie;
private int k;
// 已知数据集
private List<MoveMeta> movielist;
public static void main(String[] args) {
<span style="white-space:pre"> </span>//此处为测试数据
Knn kn = new Knn(18, 90, 3);
kn.init();
kn.findkpoint();
kn.findtype();
}
public void init() {
// 已知类别数据
movielist = new ArrayList<