Hadoop
GitzLiu
这个作者很懒,什么都没留下…
展开
-
用Python实现Hadoop实时作业状态监控
基于Python的Hadoop实时作业状态监控前言: 任务需要,要求完成这么一个程序,恰好博主以前在虚拟机上部署过hadoop,但是部署完后一直没用过,这次就来尝试下吧。进入正题:一、环境及工具: ubuntu14.04 LTS Hadoop Python PycURL二、关于 API 先把语言放在一边,要想监控hadoop的作业状态,那hadoop至少要提供相应的A原创 2017-01-06 14:43:28 · 6921 阅读 · 1 评论 -
Hadoop启动、作业提交及错误修改
一、启动Hadoop进入hadoop目录下, $ cd sbin $ ./start-all.sh二、作业提交以jar包为例,我们可以到/share/hadoop/mapreduce/ 目录下看到有hadoop-mapreduce-examples-2.7.2.jar 的示例。 提交作业 hadoop jar ../share/hadoop/mapreduce/hadoop-原创 2017-01-10 10:54:59 · 2608 阅读 · 0 评论 -
MapReduce学习
一、MapReduce的两种角色· JobTracker · TaskTracker二、MapReduce的原理可以理解为 【 input->map->combine->reduce->output 】三、JobTracker和TaskTracker 与 Map和Reduce关系四、MapReduce程序示例输入:file0与file1 输出:统计结果五、MapReduce作业执行流程 *原创 2017-03-28 16:20:36 · 1790 阅读 · 0 评论 -
HDSF学习
一、HDFS简介HDFS是基于流数据模式访问和处理大文件的需求而开发的,它可以运行与廉价的商用服务器上。 特点: (1)处理超大文件 (2)流式地访问数据 (3)运行于廉价的商用机器集群上 缺点: (1)不适用低延迟数据访问 (2)无法高效存储大量小文件 (3)不支持多用户写入及任意修改文件二、HDFS相关概念(1)块 文件以块的形式存储在磁盘中,64MB/块 (2)NameNo原创 2017-04-06 14:55:30 · 1807 阅读 · 0 评论 -
Hadoop streaming-Python编写map reduce任务
本篇记录自己学习用python写mr任务 的总结由于图片比较分散,本篇放上有道链接。http://note.youdao.com/noteshare?id=08673fa58add61d2797a31672e3dcb45原创 2019-02-02 17:18:44 · 345 阅读 · 0 评论