基于Hadoop的Knn算法实现

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时,只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,Knn方法较其他方法更为合适。

    Knn算法流程如下:

    1. 计算当前测试数据与训练数据中的每条数据的距离

    2. 圈定距离最近的K个训练对象,作为测试对象的近邻

    3. 计算这K个训练对象中出现最多的那个类别,并将这个类别作为当前测试数据的类别


    以上流程是Knn的大致流程,按照这个流程实现的MR效率并不高,可以在这之上进行优化。在这里只写,跟着这个流程走的MR实现过程。

    Mapper的设计

    由于测试数据相比于训练数据来说,会小很多,因此将测试数据用Java API读取,放到内存中。所以,在setup中需要对测试数据进行初始化。在map中,计算当前测试数据与每条训练数据的距离,Mapper的值类型为:<Object, Text, IntWritable,MyWritable>。map输出键类型为IntWritable,存放当前测试数据的下标,输出值类型为MyWritable,这是自定义值类型,其中存放的是距离以及与测试数据比较的训练数据的类别。

public class KnnMapper extends Mapper<Object, Text, IntWritable,MyWritable> {
	Logger log = LoggerFactory.getLogger(KnnMapper.class);
	private List<float[]> testData;
	@Override
	protected void setup(Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		Configuration conf= context.getConfiguration();
		conf.set("fs.defaultFS", "master:8020");
		String testPath= conf.get("TestFilePath");
		Path testDataPath= new Path(testPath);
		FileSystem fs = FileSystem.get(conf);
		this.testData = readTestData(fs,testDataPath);
	}
	
	@Override
	protected void map(Object key, Text value, Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		String[] line = value.toString().split(",");
		float[] trainData = new float[line.length-1];
		for(int i=0;i<trainData.length;i++){
			trainData[i] = Float.valueOf(line[i]);
			log.info("训练数据:"+line[i]+"类别:"+line[line.length-1]);
		}
		for(int i=0; i< this.testData.size();i++){
			float[] testI = this.testData.get(i);
			float distance = Outh(testI, trainData);
			log.info("距离:"+distance);
			context.write(new IntWritable(i), new MyWritable(distance, line[line.length-1]));
		}
	}
	
	
	private List<float[]> readTestData(FileSystem fs,Path Path) throws IOException {
		//补充代码完整
		FSDataInputStream data = fs.open(Path);
		BufferedReader bf = new BufferedReader(new InputStreamReader(data));
		String line = "";
		List<float[]> list = new ArrayList<>();
		while ((line = bf.readLine()) != null) {
			String[] items = line.split(",");
			float[] item = new float[items.length];
			for(int i=0;i<items.length;i++){
				item[i] = Float.valueOf(items[i]);
			}
			list.add(item);
		}
		return list;
	}
	// 计算欧式距离
	private static float Outh(float[] testData, float[] inData) {
		float distance =0.0f;
		for(int i=0;i<testData.length;i++){
			distance += (testData[i]-inData[i])*(testData[i]-inData[i]);
		}
		distance = (float)Math.sqrt(distance);
		return distance;
	}
}
    自定义值类型MyWritable如下:
public class MyWritable implements Writable{
	private float distance;
	private String label;
	public MyWritable() {
		// TODO Auto-generated constructor stub
	}
	public MyWritable(float distance, String label){
		this.distance = distance;
		this.label = label;
	}
	@Override
	public String toString() {
		// TODO Auto-generated method stub
		return this.distance+","+this.label;
	}
	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeFloat(distance);
		out.writeUTF(label);
	}
	@Override
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.distance = in.readFloat();
		this.label = in.readUTF();
		
	}
	public float getDistance() {
		return distance;
	}

	public void setDistance(float distance) {
		this.distance = distance;
	}

	public String getLabel() {
		return label;
	}

	public void setLabel(String label) {
		this.label = label;
	}

}
    在Reducer端中,需要初始化参数K,也就是圈定距离最近的K个对象的K值。在reduce中需要对距离按照从小到大的距离排序,然后选取前K条数据,再计算这K条数据中,出现次数最多的那个类别并将这个类别与测试数据的下标相对应并以K,V的形式输出到HDFS上。
public class KnnReducer extends Reducer<IntWritable, MyWritable, IntWritable, Text> {
	private int K;
	@Override
	protected void setup(Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		this.K = context.getConfiguration().getInt("K", 5);
	}
	@Override
	/***
	 * key => 0
	 * values =>([1,lable1],[2,lable2],[3,label2],[2.5,lable2])
	 */
	protected void reduce(IntWritable key, Iterable<MyWritable> values,
			Context context) throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		MyWritable[] mywrit = new MyWritable[K];
		for(int i=0;i<K;i++){
			mywrit[i] = new MyWritable(Float.MAX_VALUE, "-1");
		}
		// 找出距离最小的前k个
		for (MyWritable m : values) {
			float distance = m.getDistance();
			String label = m.getLabel();
			for(MyWritable m1: mywrit){
				if (distance < m1.getDistance()){
					m1.setDistance(distance);
					m1.setLabel(label);
				}
			}
		}
		// 找出前k个中,出现次数最多的类别
		String[] testClass = new String[K];
		for(int i=0;i<K;i++){
			testClass[i] = mywrit[i].getLabel();
		}
		String countMost = mostEle(testClass);
		context.write(key, new Text(countMost));
	}
	public static String mostEle(String[] strArray) {  
        HashMap<String, Integer> map = new HashMap<>();  
        for (int i = 0; i < strArray.length; i++) {
			String str = strArray[i];
        	if (map.containsKey(str)) {
				int tmp = map.get(str);
				map.put(str, tmp+1);
			}else{
				map.put(str, 1);
			}
		}
        // 得到hashmap中值最大的键,也就是出现次数最多的类别
        Collection<Integer> count = map.values();
        int maxCount = Collections.max(count);
        String maxString = "";
        for(Map.Entry<String, Integer> entry: map.entrySet()){
        	if (maxCount == entry.getValue()) {
				maxString = entry.getKey();
			}
        }
        return maxString;   
	}
}

    最后输出结果如下:


  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Hadoop是一个开源的分布式计算框架,可以实现大数据的存储和处理。而遗传算法是一种模拟自然选择和基因遗传的优化算法。 在Hadoop实现遗传算法可以充分利用其分布式计算的能力,在处理大规模数据集时提高计算的效率和性能。具体来说,可以利用HadoopMapReduce编程模型来实现遗传算法的各个步骤。 首先,在遗传算法中需要进行个体的初始化和种群的生成。可以利用HadoopMapReduce编程模型将初始化个体和生成种群的任务进行并行计算。各个Map任务可以负责生成一部分个体,并将结果写入Hadoop分布式文件系统中。 其次,在遗传算法的选择操作中,需要根据适应度函数对个体进行评估和选择。可以利用HadoopMapReduce编程模型,将评估适应度和选择操作分布到不同的Map任务中,提高计算的效率和并行度。同时,可以利用Hadoop的分布式文件系统将评估结果进行存储和管理。 然后,在交叉和变异操作中,可以使用HadoopMapReduce编程模型将交叉和变异操作分布到不同的Map任务中进行并行计算。可以利用Hadoop的分布式文件系统将种群中的个体进行切分,使得每个Map任务只负责处理部分个体,并将交叉和变异后的结果进行输出。 最后,在遗传算法的迭代过程中,可以利用HadoopMapReduce编程模型将不同迭代的操作进行串联,并循环进行计算,直到达到停止条件。可以利用Hadoop的分布式文件系统进行迭代结果的存储和管理。 综上所述,借助Hadoop的分布式计算和存储能力,可以实现遗传算法的并行计算和优化,提高处理大规模数据集的效率和性能。同时,需要根据具体的问题和需求进行算法的设计和实现,充分利用Hadoop的分布式特性,使得遗传算法能够更好地应用于大数据处理和优化任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值