Hadoop
文章平均质量分 87
reb12345reb
填写完整准确的个人资料,可以让更多的朋友找到您。
展开
-
MapReduce:详解Shuffle(copy,sort,merge)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这...原创 2014-05-28 11:14:07 · 93 阅读 · 0 评论 -
Hadoop企业级搭建之-组网设计(机架感知)
hadoop机架感知背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按...原创 2014-11-25 11:18:58 · 158 阅读 · 0 评论 -
Python-With...As语法
理解Python中的with…as…语法Posted in python - 22 五月, 2013 - 2 Comments使用语言的好特性,而不是那些糟糕的特性————不知道谁说的好久不学习python的语法了,上次去面试,和面试官聊到了python中的with-as statement(也称context manager),挺感兴趣的,这两天学习了一番,收获颇丰在此分享。先...原创 2015-12-22 14:12:52 · 111 阅读 · 0 评论 -
Linux-RPM详解
rpm命令手册和查看rpm安装包的安装路径的方法来源:互联网 作者:佚名 时间:04-22 14:07:45 【大 中 小】rpm -qpl xxxxxx.rpm 1.如何安装rpm软件包 rmp软件包的安装可以使用程序rpm来完成。执行下面的命令 rpm -i your-package.rpm 其中your-package.rpm是你要安装的rpm包的文件名,一般置于当...原创 2015-12-12 14:22:10 · 376 阅读 · 0 评论 -
Linux-NTP服务配置
配置NTP服务ntpd/ntp.conf(搭建Hadoop集群可参考)标签: ntpntpdntp.conf2014-11-24 08:55 5915人阅读 评论(0) 收藏 举报版权声明:本文为博主原创文章,未经博主允许不得转载。本文原文出处: http://blog.csdn.net/bluishglc/article/details/414...原创 2015-12-10 20:51:04 · 146 阅读 · 0 评论 -
spark
spark 安装 0.8 版本操作系统Ubuntu 10.04,已经安装JDK 1.7。1. 下载spark代码http://spark.incubator.apache.org/downloads.html2. spark 0.8依赖于scala 2.9.3,安装这个版本的scala。2.1 下载scala 0.9.3 http://www.scala-lang.org/download/2.9...原创 2014-11-06 22:23:16 · 86 阅读 · 0 评论 -
Hadoop组件之-MapReduce(InputFormat)
Hadoop源码解析之: TextInputFormat如何处理跨split的行标签: hadoopsplitTextInputFormat跨split2013-07-19 14:44 6402人阅读 评论(1) 收藏 举报版权声明:本文为博主原创文章,未经博主允许不得转载。我们知道hadoop将数据给到map进行处理前会使用InputForma...原创 2015-12-07 20:03:31 · 176 阅读 · 1 评论 -
Hadoop组件之-Sqoop
前置条件已经成功安装配置Hadoop和Mysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase。下载sqoop和Mysql的JDBC驱动sqoop-1.2.0-CDH3B4.tar.gz :http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gzmysql-connector-ja...原创 2015-12-07 17:33:42 · 158 阅读 · 0 评论 -
Hadoop组件之-Kafka
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实...原创 2015-12-07 17:32:50 · 304 阅读 · 0 评论 -
Hadoop企业级搭建之-Cloudera产品部署
<iframe id="cproIframe_u1728839_3" style="word-wrap: break-word;" src="http://pos.baidu.com/acom?adn=4&amp;at=160&amp;aurl=&amp;cad=1&amp;ccd=24&amp;cec=GBK&amp;cfv=0&原创 2015-11-30 22:12:47 · 1011 阅读 · 0 评论 -
Hadoop企业级搭建之-版本选择
太多选择——如何挑选合适的大数据或Hadoop平台?作者 Kai Wähner ,译者 王灵军 发布于 2013年10月9日 | 注意: ArchSummit全球架构师峰会(北京)2015年12月18-19日,了解更多详情!5 讨论分享到:微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单 今年,大数据在很多公司...原创 2015-11-27 14:37:10 · 248 阅读 · 0 评论 -
Hadoop企业级搭建之-组网设计方案理解
深入理解Hadoop集群和网络发表于2012-08-30 14:09| 次阅读| 来源个人博客| 0 条评论| 作者Brad HedlundHadoop大数据虚拟化服务器摘要:本文将着重于讨论Hadoop集群的体系结构和方法,及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基础。导读:云计算和Hadoop中网络是讨论得相对比较少的领域。本文...原创 2015-11-27 14:08:25 · 397 阅读 · 0 评论 -
Hadoop企业级搭建之-组网设计(收敛比)
高性能数据中心网络的流量收敛设计收藏打印推荐在数据中心网络领域,性能、规模似乎永远没有边界,是业界技术人员、设计者们不断追求与创新的目标。从1G速率骨干网的应用、10G速率骨干网的普及,到40G/100G以太网标准的制定和颁布, IT领域同样有着更高、更快、更强法则。但是有了高速的转发技术,并不意味着就可以实现高性能,高性能网络设计是一个系统化的工程,需要考虑...原创 2015-11-27 13:55:08 · 1667 阅读 · 0 评论 -
Hadoop组件之-HIVE(位图索引)
索引概述 什么是索引? 索引是Oracle数据库中提供的一种可选的数据结构,用于关联一个表。 为什么要使用索引? 索引在有些情况下可以加快访问速度,减少磁盘IO。 通常情况下时候使用索引? 表中的某列经常会在查询中使用,并且经常用返回占表中数据总量比例较少的row set。引用完整性约束列。unique key 。...原创 2016-06-24 15:43:54 · 1264 阅读 · 0 评论 -
Hadoop组件之-HDFS(HA实现细节)
Hadoop NameNode 高可用 (High Availability) 实现解析在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameN...原创 2016-06-23 10:10:04 · 983 阅读 · 0 评论 -
Hadoop组件之-HDFS(FederationAndHA)
一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Availability...原创 2016-06-23 10:06:37 · 206 阅读 · 0 评论 -
map的环形内存缓冲区
map的环形内存缓冲区博客分类:hadoop源码解读HadoopMapreduceApache工作hadoop在执行MapReduce任务时,在map阶段,map函数产生的输出,并不是直接写入磁盘的。为了提高效率,它将输出结果先写入到内存中(即环形内存缓冲区,默认大小100M),再从缓冲区(溢)写入磁盘。 下面我们就来看看这段代码。 1、找到环形内存缓冲区 在...原创 2014-09-26 09:24:41 · 762 阅读 · 0 评论 -
Spark-SQL简介
分享到...复制网址邮件QQ空间新浪微博腾讯微博微信人人网易信网易微博搜狐微博QQ好友开心网飞信豆瓣一键分享查看更多(122) 这是什么工具?JiaThis 石山园 博客园首页新闻新随笔联系管理订阅随笔- 83 文章- 0 评论- ...原创 2016-01-11 22:09:00 · 284 阅读 · 0 评论