hadoop之Kmeans数据挖掘算法实现

最新推荐文章于 2024-08-08 10:34:27 发布

laotumingke

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量4.3k

点赞数 3

分类专栏： linux学习机器学习文章标签： hadoop java 数据挖掘算法 kmeans

本文链接：https://blog.csdn.net/laotumingke/article/details/60580709

版权

本文介绍了如何在较旧版本的Hadoop上实现KMeans算法。由于不同版本间的差异，作者在实现过程中遇到了org.apache.hadoop.mapreduce.Job包缺失的问题。通过参考多个资源，作者使用欧式距离计算并调整了中心点写入方式，成功地在低版本Hadoop上实现了KMeans。执行过程需确保数据以逗号分隔，初始中心点需预设。最终结果在output文件夹中，每个聚类数据分别存储在单独文件内。

摘要由CSDN通过智能技术生成

Kmeans是十分常见的数据挖掘算法，其逻辑较为简单，应用范围广。通过百度搜索java实现的Kmeans算法，可参考的版本很多，比如：
http://blog.csdn.net/jdplus/article/details/23960127
还有：
http://www.cnblogs.com/chaoku/p/3748456.html

虽然作者都表示亲测有效，不会有任何问题，然而在实际应用中每个人的环境不同，尤其是hadoop版本的不同，总会出现这样或者那样的问题。不过他们的算法给了很好的参考，按照他们的逻辑照虎画猫，也是可行的。
我的hadoop版本较为老旧，其中最为突出的问题就是在老版本的hadoop中并没有

org.apache.hadoop.mapreduce.Job;

这个包，这个版本上的差别照成了并不能直接拿大牛们的代码复制过来就用。随后在参考了hadoop官网中的案例重新对Kmeans算法进行了实现，代码参考“潇洒子弦”较多，也容纳我的思考，主要有耽三个大方面的不同：

实现的版本不同，基于低级版本的hadoop予以实现。
在计算距离上有了变化，采用了欧式距离，按照原来的实现方案并不能有效聚类成需要的组别数呢。
将中心点写入新文件中语句也有变动，按照原始的写法，似乎会覆盖掉。

以下是主要代码:

package mykmeans;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.util.LineReader;

public class CopyOfUtils {
   

    //读取中心文件的数据
    public static ArrayList<ArrayList<Double>> getCentersFromHDFS(String centersPath,boolean isDirectory) throws IOException{

        ArrayList<ArrayList<Double>> result = new ArrayList<ArrayList<Double>>();

        Path path = new Path(centersPath);

        Configuration conf = new Configuration();

        FileSystem fileSystem = path.getFileSystem(conf);

        if(isDirectory){    
            FileStatus[] listFile = fileSystem.listStatus(path);
            for (int i = 0; i < listFile.length; i++) {
                result.addAll(getCentersFromHDFS(listFile[i].getPath().toString(),false));
            }
            return result;
        }

        FSDataInputStream fsis = fileSystem.open(path);
        LineReader lineReader = new LineReader(fsis, conf);

        Text line = new Text();

        while(lineReader.readLine(line) > 0){
            //ArrayList<Double> tempList = textToArray(line);
            ArrayList<Double> tempList = new ArrayList<Double>();
            String[] fields = line.toString().replaceAll("\t", "").split(",");
            for(int i=0;i<fields.length;i++){
                tempList.add(Double.parseDouble(fields[i]));
            }
            result.add(tempList);
        }
        lineReader.close();
        return result;
    }

    //删掉文件
    pub