Hadoop
文章平均质量分 81
Oasen
黑森林法则
展开
-
MR 表连接
Reduce 端 join 相较于 Map 端 join 更为普遍,因为输入的数据不需要特定的结构,弊端则是效率比较低,因为数据都须经过Shuffle过程。MapReduce 表连接操作Map 端 join:Map 端 join 是指数据到达 map 处理函数之前进行合并, 效率要远远高于 Reduce 端 join, 因为 Reduce 端 join 是把所有数据都经过 Shuffle,...原创 2019-06-28 01:09:52 · 400 阅读 · 0 评论 -
MR 二次排序
二次排序 eg: 对左侧序列进行排序, 需要先对字母排序, 然后在对数字进行排序. 得到右侧的序列. a 2 a 2 c 4 a 4 b 3 b 1 c 1 => b 3 a...原创 2019-06-26 15:44:11 · 508 阅读 · 0 评论 -
Eclipse 搭建 Hadoop 开发环境
1. 下载 hadoop-eclipse-plugin-2.7.3.jar 下载 eclipse-java-luna-SR2-win32-x86_64.zip 的 eclispe 版本2. 解压 eclipse,并将下载 hadoop-eclipse-plugin-2.7.3.jar 置于 eclipse\plugins 目录下。3. 启动 eclipse, 打开...原创 2019-03-10 00:09:47 · 256 阅读 · 0 评论 -
Intellij IDEA 创建Hadoop开发工程
1. 将Centos 上搭建好的 Hadoop配置环境,打包传到 Windows 目录D:\tools\hadoop2. 下载 Hadoop 在 Window 上的相关库文件,并将相关文件复制到D:\tools\hadoop-2.5.0\bin 如下图,将hadoop.dll和winutile.exe放到hadoop的bin文件夹里.zip 放在 hadoop.xx/bin ...原创 2019-03-10 00:03:00 · 12874 阅读 · 1 评论 -
完全分布式 Hadoop 配置
针对使用虚拟机来配置Hadoop集群,首先安装好一台Centos虚拟机,然后再克隆两台。克隆之后,需要对三台 Centos 的 IP/Host 进行配置。IP mac映射,方便ssh操作MAC:/etc/udev/rules.d/70-persistent-net.rules 删除eth-0 复制mac地址,将eth-1 改成eth-0 (此为当前的mac地址) /e...原创 2019-03-03 01:18:49 · 279 阅读 · 0 评论 -
Hadoop 伪分布式配置
环境:虚拟机VM Centos 6.7 Java:jdk-7u67-linux-x64.tar.gz Hadoop: hadoop-2.5.0.tar.gz IP/Host: 192.168.47.100/bigdata.001.com设置虚拟机IP/Host虚拟机 -> 编辑 -> 虚拟网络编辑器1. 虚拟机设置为NAT模式。2. ...原创 2019-03-03 00:57:00 · 433 阅读 · 0 评论 -
Hadoop 高可用性HA架构
HA:(High Available)背景:namenode 处于某些原因无法使用,集群瘫痪方案:两个namenode,一个正常使用,一个处于待机 Active / Standby相关问题1. Active /Standby 元数据同步,保证 Standby ...原创 2019-03-03 01:45:10 · 257 阅读 · 0 评论 -
MR 矩阵相乘
矩阵乘法:A 矩阵B 矩阵1, 2, 37, 94, 5, 64, 67, 8, 91, 310, 11, 12一般矩阵乘法为:MR 实现分析因为分布式计算的特点,需要找到相互独立的计算过程,以便能够在不同的节点上进行计算而不会彼此影响。根据矩阵乘法的公式 C 中各个元素的计算都是相互独立的,即各个cij在计算过程中彼此不影响。这样的话...原创 2019-06-28 16:35:06 · 1505 阅读 · 1 评论