- 博客(6)
- 资源 (5)
- 收藏
- 关注
原创 数据预处理需要注意的几个问题 《数据之魅》
1,缺失值:如果个别属性或者整个数据点丢失,我们必须决定如何处理它们。全部记录作废,还是只是为问题中丢失的信息做标记,还是以某种方式回填数据?2,孤立点:一般来说,应该非常小心地删除孤立点,因为删除的孤立点,可能正是你一直在寻找的结果,绝对不可以随意把某个数据点删除3,垃圾:来自网络的数据可能包含非打印字符或者类似的垃圾。这样的数据不仅没有用,还严重搅乱了尝试执
2013-04-11 14:03:21 2596
原创 《大数据时代》 概要
一、大数据的概念?“大数据”是一个还未给出严格定义的概念,是相较于过去小的、局部性的、抽样的数据而言的。因此大数据进行分析和工作时,依赖的是完整的、全面的相关数据。维克托在书中给出的三个转变描述了大数据的特征:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。例如一项针对相扑比赛中非法操纵比赛结果的研究对64000场比赛进行
2013-04-02 11:46:26 1069
转载 揭秘InputFormat:掌控Map Reduce任务执行的利器
随着越来越多的公司采用Hadoop,它所处理的问题类型也变得愈发多元化。随着Hadoop适用场景数量的不断膨胀,控制好怎样执行以及何处执行map任务显得至关重要。实现这种控制的方法之一就是自定义InputFormat实现。InputFormat 类是Hadoop Map Reduce框架中的基础类之一。该类主要用来定义两件事情:数据分割(Data splits)记录读取器(Reco
2013-03-29 21:13:11 560
转载 InputFormat详解 -- RecordReader篇
InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢?InputFormat其实是一个接口,包含了两个方法:public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException; RecordReade
2013-03-29 21:11:48 1183
转载 hadoop矩阵相乘简单实现
matrix-matrix multiplication on HadoopA x B = Cconstraint: A, B, C must be of the same sizeI use this to evaluate the efficiency of Hadoop for matrix multiplication,so I really don't care
2013-03-29 21:09:01 977
原创 Mapreduce重写参考
Mapreduce数据流走向图: 流程解释 Input files 功能描述:存储在HDFS中的文件数据 InputFormat 功能描述:1,选取数据对象 2,分割数据文件 3,读取数据对象 实现参考:
2013-03-29 20:55:05 1206
mahout in action源代码maven编译jar包
2012-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人