大数据
文章平均质量分 70
学战到底
这个作者很懒,什么都没留下…
展开
-
[Hadoop源码解读](二)MapReduce篇之Mapper类
转自[hadoop源代码解读](二)MapReduce篇之Mapper类,保存在此以学习。这一篇里,开始对Mapper.class的子类进行解读。 先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作,map()则一般承担主要的处理工作,cleanup()则是收尾工作如转载 2016-07-12 16:04:52 · 600 阅读 · 0 评论 -
ubuntu配置SSH免密码登陆,提示Permission denied (publickey).
在使用EC2的ubuntu实例创建Hadoop集群时,配置ssh密钥出现问题:ubuntu@ip-172-31-30-202:~$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/ubuntu/.ssh/id_rsa): Enter原创 2016-11-20 20:46:33 · 22209 阅读 · 2 评论 -
KMeans聚类算法Hadoop实现
转自:KMeans聚类算法Hadoop实现,保存在此以学习。Assistance.java 辅助类,功能详见注释[java] view plain copy package KMeans; import org.apache.hadoop.conf.Configuration; import org.apac转载 2016-11-18 21:42:01 · 1108 阅读 · 0 评论 -
Spark入门(Python版)
转自:Spark入门(Python版),保存在此以学习。Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(转载 2016-07-29 22:02:03 · 1502 阅读 · 0 评论 -
单机测试python编写的mapper时出现/usr/bin/python3^M: bad interpreter: No such file or directory
在单机测试python编写的mapper时出现hadoop@ub1401:~/hadoop/hadoopfile$ cat keywords-blank-1.txt|./PictureDownloadMapper.pybash: ./PictureDownloadMapper.py: /usr/bin/python3^M: bad interpreter: No such file or原创 2016-05-12 10:53:08 · 4960 阅读 · 0 评论 -
问题记录-python写mapper测试时出现urllib.error.HTTPError: HTTP Error 404: Not Found
hadoop@ub1401:~/python/pythonfile$ cat keyword.txtsheep 2dog,3firework 3hadoop@ub1401:~/python/pythonfile$ cat keyword.txt | ./mappertest1-1.pyTraceback (most recent call last): File "./mappert原创 2016-05-12 21:42:09 · 15965 阅读 · 0 评论 -
Hadoop各主流版本的介绍
1、Apache Hadoop2.0版本,有以下模块:Hadoop通用模块,支持其他Hadoop模块的通用工具集;Hadoop分布式文件系统(HDFS),支持对应用数据高吞吐量访问的分布式文件系统;Hadoop YARN,用于作业调度和集群资源管理的框架;Hadoop MapReduce,基于YARN的大数据并行处理系统。Hadoop目前除了社区版,还有众多厂商的发行版本。原创 2016-07-06 20:12:29 · 7089 阅读 · 0 评论 -
Hadoop生态系统简介
Hadoop生态系统主要包括:Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。HBase:一种分布的、可原创 2016-07-06 20:43:58 · 1511 阅读 · 0 评论 -
从大样本中均匀提取子集的算法
转自:从大样本中均匀提取子集的算法,保存在此以学习。在一些计算中,我们可能会遇到这样的问题: 我们可能会拿到一个数据量很大的样本,但是算法的时间对数据量很敏感而精度不太敏感,过多的数据会严重降低算法的效率,此时我们可以从这个大样本中取出一部分数据,代入算法进行运算.比如在计算机视觉中,如果摄像机只做旋转运动和变焦,要从两幅视图中的特征点以及它们之间的单应矩阵H,非线性优化摄像机的转载 2016-07-19 16:22:15 · 2216 阅读 · 0 评论 -
大数量级组合数的快速计算方法
转自:大数量级组合数的快速计算方法,保存在此以学习。计算组合数最大的困难在于数据的溢出,对于大于150的整数n求阶乘很容易超出double类型的范围,那么当C(n,m)中的n=200时,直接用组合公式计算基本就无望了。另外一个难点就是效率。 对于第一个数据溢出的问题,可以这样解决。因为组合数公式为: C(n,m) = n!/(m!(n-m)!)为了避免直转载 2016-07-19 16:19:06 · 11459 阅读 · 1 评论 -
问题记录:hadoop+zookeeper高可用性集群启动时出现namenode均为standby状态
去年在Amazon上手动搭建了八个结点的小集群做测试,两个namenode,一个yarn,五个datanode,距离上次使用大概有两个月的时间,之前用的时候都没问题,今天启动后正常查看hdfs上的文件时报错如下:ubuntu@ip-172-31-9-9:~$ hadoop fs -ls /16/07/18 06:52:48 INFO retry.RetryInvocationHandler:原创 2016-07-18 15:26:16 · 8672 阅读 · 0 评论 -
hadoop常见问题及其解决办法
转自Hadoop使用常见问题以及解决方法(转载),保存在此以学习。1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序 里面需要打开多个文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文转载 2016-07-18 15:51:16 · 5843 阅读 · 0 评论 -
MapReduce之多MapReduce执行
转自:【Apache Hadoop】MapReuce 编程总结-多MapReduce执行,保存在此以学习。学习hadoop,必不可少的就是写MapReduce程序,当然,对于简单的分析程序,我们只需一个MapReduce就能搞定,这里就不提单MapReuce的情况了,网上例子很多,大家可以百度Google一下。对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行转载 2016-07-15 16:25:30 · 5309 阅读 · 0 评论 -
hadoop---自定义输出文件格式以及输出到不同目录
转自: hadoop编程小技巧(7)---自定义输出文件格式以及输出到不同目录,保存在此以学习。代码测试环境:Hadoop2.4应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。Hadoop内置的输出文件格式有:1)FileOutputFormat 常用的父类;2)TextOutputFormat 默认转载 2016-07-13 01:08:43 · 6165 阅读 · 0 评论 -
MapReduce 图解流程超详细解答(1)-【map阶段】
转自:MapReduce 图解流程超详细解答(1)-【map阶段】,保存在此以学习。在MapReduce中,一个YARN 应用被称作一个job, MapReduce 框架提供的应用,master的一个实现被称作MRAppMaster MapReduce Job的时间线MapReduce Job 运行的时间线:Map Phase:若干 Map Ta转载 2016-07-12 16:24:17 · 3779 阅读 · 0 评论 -
Amazon EC2上配置集群出现zookeeper启动失败的排错
转自:zookeeper启动失败的排错,保存在此以学习。1.执行zkServer.sh start 后显示:JMX enabled by defaultUsing config:/home/hadoop/app/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... STARTED2.jps原创 2016-11-21 04:00:38 · 5307 阅读 · 0 评论