hadoop
水的只能学
跑跑跳跳,学学走走
展开
-
Haoop , Spark安装实例教程--Hadoop安装
系统:ubuntu12.04 64位 hadoop:hadoop-2.6.0 spark:spark-1.4.0-bin-hadoop2.4 JDK:jdk1.7.0_79 Scala:scala-2.10.4 1:这里默认使用root,因为进行其他设置到时候要对权限更改,root比较方便,因为ubuntu默认是不开启root用户到,这里要开启root用户: 登录roo原创 2015-10-30 21:40:25 · 890 阅读 · 0 评论 -
HDFS 解析
介绍 HDFS是Hadoop的存储组件,HDFS分布式文件系统是在Google 2003年发表的论文文件系统GFS(中文)这篇论文后实现的。 HDFS的特点: HDFS利用超大数据块和数据局部性优化来减少网络输入/输出(I/O) 可扩展性和可使用性 HDFS按照配置的副本数(3个副本)复制文件,可容忍硬件和软件的错误,原创 2015-10-31 19:07:41 · 540 阅读 · 0 评论 -
Hadoop 元模式之作业归并
最近在使用hadoop处理日志统计相关字段的频率与数量,目前只有一个输入文件900M ,需要处理到任务有4个,分别是统计IP,HTTP 状态码,响应时间,已经接口到总频次。 开始想到到是使用作业链到方式,但是考虑IO和网络数据传输到限制,最总选择使用作业归并来处理。 自己理解中到作业归并: 作业归并优点:数据只需要加载一次和解析一次 与作业链比较,將多个map使用一个map来进行处理同原创 2015-11-01 22:21:31 · 543 阅读 · 0 评论