hadoop
qq_281617953
这个作者很懒,什么都没留下…
展开
-
mapreduce参考文档翻译
MapReduce作业通常将输入数据集分割成独立的块,由map任务以完全并行的方式处理。 框架对映射的输出进行排序,然后将这些输出输入到reduce任务中。通常,作业的输入和输出都存储在文件系统中。框架负责调度任务,监视它们并重新执行失败的任务 简单的说,mapreduce指定输入/输出位置和供应映射,并通过适当的接口和/或抽象类的实现来减少功能。这些和其他工作参数组成了作业配置。 输入和输...原创 2018-08-30 18:05:03 · 511 阅读 · 0 评论 -
LineRecordReader的实现方式
LineRecordReader被createRecordReader调用,创建了一个新的实例,请看下面代码: public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) { String delimiter = c...原创 2018-08-31 11:54:37 · 1089 阅读 · 0 评论 -
分布式大矩阵SVD分解
4台机器,跑1万x1万数据,运行时间:链接 spark高级编程 这本书也有个这种大型稀疏矩阵的处理,SVD。数据是46G,上千万行,列是几万。大数据技术还是有技术方案来解决这方面的工作的。...原创 2018-09-14 11:54:43 · 1971 阅读 · 1 评论 -
ssh配置两台ubutun机器遇到的坑
1,ssh连接的原理: master将自己的公钥传到data1上,这里有个复制的过程,可以百度。最后在data1的authorized_keys文件里。 当master向data1发送信息时,data1会向master发送一个随机数,master会吧这个随机数用私有的钥匙加密,传给data1,然后data1用存在authoried上的key解开密钥,如果跟自己发送的一致,那么就是对的。 ...原创 2018-09-09 17:01:02 · 150 阅读 · 0 评论 -
linux 查看java的安装路径
在linux下,如何找java的安装路径 han@ubuntu:/etc$ whereis java java: /usr/bin/java /usr/share/java /usr/lib/jvm/java-8-openjdk-amd64/bin/java /usr/share/man/man1/java.1.gz han@ubuntu:/etc$ ls -lrt /usr/bin/java l...转载 2019-04-23 15:04:29 · 1142 阅读 · 0 评论