- 博客(1)
- 资源 (6)
- 收藏
- 关注
转载 千万别滥用指标数据标准化
最近在审理一篇稿子,一位作者做农户评价。先对某地区农户调查,然后将调查对象的若干指标,比如农户教育水平进行标准化,最后再计算标准化后的平均值,据以判断该指标某地区水平,比如均值为85,那么应该不错,均值为30,就比较差了。 这种做法是极为错误的,犯了方法错误,理由如下: 一、标准化方法低估了指标水平。 作者标准化方法是:Zij=【Xij-min(Xij)】/【max(Xij)-min
2012-04-18 10:02:11 4707
大数据下实时推荐系统架构文档
大数据环境下如何架构实时推荐系统的说明文档,使用了目前流行的spark hbase kafa sparkstream ml spray ...等技术。
2016-01-08
hadoop/mapreduce-矩阵乘法 mapreduce的实现(代码)
最近在研究hadoop与mapReduce,网上教程只有个wordcount程序示范,太简单,故写了个相对复杂点的涉及到多个文件之间同时运算的矩阵乘法的代码用于实验与测试,上传供大家学习与参考。
调用方法:
执行:hadoop jar matrix.jar com.baosight.mapred.test.MatrixMulti left:/tmp/a right:/tmp/b output:/tmp/c leftprefix:000000_ rightprefix:000000_
>参数1:left:左矩阵路径
>参数2:right:右矩阵路径
>参数3:output:左矩阵乘右矩阵结果路径
>参数4:leftprefix:左矩阵文件前缀
如/tmp/a/000000_0,000000_1,000000_2……的000000_
>参数5:rightprefix:右矩阵文件前缀
>左右矩阵按列存储,每个文件只存放一列值,如2x2的单位矩阵, 000000_0存放1 0
000000_1存放
0 1
2012-06-27
R and Hadoop
R Hadoop
About Revolution Analytics
Why R and Hadoop?
The Packages (rhdfs, rhbase, rmr)
Examples
Resources and Further Reading
Co-sponsored by Revolution and Cloudera
2012-05-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人