hadoop
liaomin416100569
这个作者很懒,什么都没留下…
展开
-
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2015-04-14 11:18:48 · 541 阅读 · 0 评论 -
centos6安装hadoop1.2.1
1->下载hadoop-1.2.1.tar.gz tar -zxvf hadoop-1.2.1.tar.gz 解压 2->创建 hadoop 账户 groupadd hadoop useradd -g haddop -d /home/hadoop chown -R hadoop:hadoop /home/hadoop 3->hadoop账户免登陆设置 ssh-keygen -t d原创 2015-03-31 21:56:52 · 940 阅读 · 0 评论 -
hadoop记录篇2-namenode高可用(HA)之QJM+NFS
一 。QJM简介和原理 hadoop集群环境 namenode元数据保存在一台机器中 存在单点故障 传统的高可用解决方案 至少有一台从机 用于备份主机数据,同一时间只有主机 对外提供服务,如果主机宕机 从机能够自动接管主机服务,从机为了同步主机的数据 必须定期同步主机的edits日志 但是如果主机宕机 edits日志必定 无法读取 此时产生了新的组件 JournalNodes(同se原创 2017-10-21 09:18:23 · 2365 阅读 · 0 评论 -
hadoop记录篇1-hdfs集群安装
一。hdfs原理和架构 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)P原创 2017-10-20 10:19:26 · 386 阅读 · 0 评论 -
推荐机制 协同过滤和基于内容推荐的区别
参考ibm文章 https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html该系列分为三部分 第 2 部分: 深入推荐引擎相关算法 - 协同过滤第 3 部分: 深入推荐引擎相关算法 - 聚类“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,...转载 2018-04-13 16:23:51 · 2128 阅读 · 0 评论 -
hadoop记录篇10-数据仓库查询组件impala
一。impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用...原创 2018-04-25 09:42:13 · 1740 阅读 · 0 评论