hadoop学习
bokzmm
这个作者很懒,什么都没留下…
展开
-
zookeeper集群查看状态错误:Error contacting service. It is probably not running
今天用三台虚拟服务器搭了个zookeeper集群,在所有配置都设置好后;启动了一台机器上的zookeeper服务后;然后就兴冲冲的想去查看一下他的状态,结果就报了上述错误;而且发现无法登陆到本地的zookeeper服务。后来和同事讨论了一下,差点笑死,搞了这么久的zookeeper,竟然把它的一个很重要的特性给忘了。 zookeeper集群中,只有当有半数以上的机器能正常运行时原创 2018-01-12 21:14:53 · 1382 阅读 · 0 评论 -
hadoop2.7.x搭建高可用集群
一、环境准备及规划 (1)三台虚拟服务器,系统版本为centos6.5 (2)分别在三台虚拟机上配置java运行环境,这里jdk的版本是1.8 (3)zookeeper集群搭建,搭建过程略;详细过程请参考其他博文。 (4)hadoop版本:hadoop2.7.1 (5)三台虚拟机的基本信息及每台机器上需要部署的服务: 主机名 IP 部署服务原创 2018-01-14 17:03:16 · 486 阅读 · 0 评论 -
hadoop总结及hdfs的读写流程
一、hadoop简介:hadoop是一个适合海量数据存储和计算的分布式基础框架,其起源于google三篇论文。其中,hadoop2.x的版本中,概括起来可分为三大核心或四大模块。三大核心是指:hdfs(分布式文件系统)、yarn(任务调度和资源管理)、mapreduce(分布式离线计算框架);而四大模块除了包括上述的三个核心组件外,外加一个hadoop common组件(其为三大核心组件提供基础工...原创 2018-02-04 10:40:27 · 2652 阅读 · 0 评论 -
mapreduce练习:多文件输出对象MultipleOutputs
一、需求:词频统计,根据单词的首字符的不同输出到不同的结果文件中去。输入文件内容如下:hello world hello world hello world 123 123 456 123 123 456 123 123 HELLO WORLD HU HA HELLO hello tom jack 123 678 腾讯 百度 阿里 天猫 腾讯 百度 hello jack 456 678二、为了实现...原创 2018-03-08 09:34:11 · 683 阅读 · 0 评论 -
mapreduce练习之数据去重
输入数据: 1997-01-02 phone 1998-10-01 window 1997-01-02 phone 2001-11-23 xbox 2013-08-16 vr 1997-01-02 phone 2001-11-23 xbox 2013-08-16 vr需求:去除其中的重复元素,每个日期对应的商品只保存一份 输出: 1997-01-02 phone 1998-...原创 2018-03-09 21:43:17 · 459 阅读 · 0 评论