机器学习算法MapReduce版
余音丶未散
J2EE,机器学习,Hadoop,Spark,时间序列分析
展开
-
MapReduce之按照ID取模分区输出到不同文件下
很多时候需要对大文件进行分区最简单的是ID的hash分区利用MapReduce的分区把文件分割成到不同的文件中去方便后续的计算,例如KNN可以吧预测切分成多个小片分别读入预测package com.mr.partition;import java.io.IOException;import java.util.ArrayList;import java.util原创 2016-06-29 10:55:56 · 1433 阅读 · 0 评论 -
k近邻KNN之MapReduce实现
* 把预测的数据读入内存然后进行迭代计算 * 适用于预测数据很少训练数据很多 * 如果预测数据很多可以切分多分分别计算 * @author lenovo * 1,计算欧式距离(可根据实际情况修改距离公式) * 2,找出最近 * 输出topk使用TreeSet自己写TopKeyWritable排序package com.ml.mapreduce;impor原创 2016-06-29 09:51:14 · 4708 阅读 · 2 评论 -
朴素贝叶斯之MapReduce版
1,统计词出现的次数1/计算类别的先验概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+文档出现次数+文档出现的词的总数2/计算每个词的条件概率 *输入格式:类别+文档id+文档词(切分成A,b,c) *输出格式:类别+词+词的总数3/假设二分类问题-计算概率值 * 1类别+文档出现次数+文档出现的词的总数 * 2类别+原创 2016-06-28 21:08:09 · 11515 阅读 · 0 评论