hadoop
天边tbdp
一个码农,从业后端快十载
展开
-
hadoop2.2.0安装与启动
hadoop2.2.0安装与启动Setup newest Hadoop 2.x (2.2.0) on UbuntuIn this tutorial I am going to guide you through setting up hadoop 2.2.0 environment on Ubuntu.Prerequistive[java]转载 2014-01-24 22:09:10 · 734 阅读 · 0 评论 -
浅析 Hadoop 中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计转载 2014-06-12 17:55:49 · 593 阅读 · 0 评论 -
数据倾斜总结
数据倾斜总结 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的redu转载 2014-06-12 17:53:20 · 725 阅读 · 0 评论 -
Hadoop 多表 join:map side join 范例
在没有 pig 或者 hive 的环境下,直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情,MR中的join分为好几种,比如有最常见的 reduce side join,map side join,semi join 等。今天我们要讨论的是第 2 种:map side join,这种 join 在处理多个小表关联大表时非常有用,而 reduce join 在处理多表关联时是比转载 2014-06-12 17:57:46 · 742 阅读 · 0 评论 -
Hadoop中CombineFileInputFormat详解
在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputFormat满足我们的需求。CombineFileInputFormat 原理(网上牛人总结):第一转载 2014-07-03 17:30:45 · 575 阅读 · 0 评论 -
Hadoop RPC 框架解析
网络通信模块是分布式系统中最底层的原创 2014-06-15 15:48:08 · 2018 阅读 · 0 评论 -
云监控 Nagios 安装步骤
云监控 Nagios 安装步骤转载 2014-06-19 16:50:07 · 1040 阅读 · 0 评论 -
搭建ganglia集群并且监视hadoop CDH4.6
前言最近在研究云监控的相关工具,感觉ganglia颇有亮点,能从一个集群整体的角度来展现数据. 但是安装过程稍过复杂,相关依赖稍多,故写此文章与大家分享下.本文不讲解相关原理,若想了解请参考其他资料. 本文目的: 即使之前未触过ganglia,也能按照文中步骤搭建自己的ganglia监控集群.@Author duangr@Website http://my.原创 2014-06-19 16:10:12 · 2626 阅读 · 0 评论 -
如何使用hadoop实现精准营销
1,从各个主页通过js发送用户信息到原创 2014-09-06 19:16:19 · 1110 阅读 · 0 评论 -
hadoop机架感知
原理hadoop中声明是有机架感知的功能,能够提高hadoop的性能。平时我们使用的hadoop集群,实际上是从来没有使用上这个功能的。 hadoop中所说的机架感知的实现实际上这样的:hadoop启动时会检查hadoop-default.xml和hadoop-site.xml中的一个配置选 项:topology.script.file.name,如果这个选项不为空,hadoop就转载 2015-06-19 00:20:07 · 427 阅读 · 0 评论 -
HBase 写优化之 BulkLoad 实现数据快速入库
目录[-]1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?2、bulkload 流程与实践3、说明与注意事项:4、Refer:1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBa转载 2015-06-28 21:47:22 · 817 阅读 · 0 评论 -
Spark与Flink:对比与分析
摘要:Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。而Flink是可扩展的批处理和流式数据处理的数据处理平台。Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户转载 2015-09-23 11:39:20 · 1461 阅读 · 0 评论 -
Cloudera新的开源储存引擎 Kudu
据外媒报道,大数据公司 Cloudera 正在开发一个大型的开源储存引擎 Kudu,用于储存和服务大量不同类型的非结构化数据。预计本月底发布。Kudu 将被当作目前广泛使用的 Hadoop Distributed File System 和 Hadoop-oriented HBase NoSQL 数据库的替代产品,并将集合两者的特点。Kudu 将遵循 Apache 协议开源。据说,原创 2015-11-02 18:50:33 · 1239 阅读 · 0 评论 -
How To Configure Elasticsearch on Hadoop with HDP
原文地址:http://www.tuicool.com/articles/JryymeElasticsearch’s engine integrates with Hortonworks Data Platform 2.0 and YARN to provide real-time search and access to information in Hadoop.S转载 2015-11-18 18:19:00 · 602 阅读 · 0 评论 -
Hadoop与MPP是什么关系?有什么区别和联系?
HADOOP与MPP是什么关系?有什么区别和联系?适用范围、应用领域分别是什么?其实MPP架构的关系型数据库与Hadoop的理论基础是极其相似的,都是将运算分布到节点中独立运算后进行结果合并。个人觉得区别仅仅在于前者跑的是SQL,后者底层处理则是MapReduce程序。但是我们会经常听到对于MPP而言,虽说是宣称也可以横向扩展Scale OUT,但是这种扩展一般是扩到100转载 2015-12-23 18:45:13 · 32446 阅读 · 1 评论 -
让python在hadoop上跑起来
duang~好久没有更新博客啦,原因很简单,实习啦~好吧,我过来这边上班表示觉得自己简直弱爆了。第一周,配置环境;第二周,将数据可视化,包括学习了excel2013的一些高大上的技能,例如数据透视表和mappower绘制3d地图,当然本来打算是在tkinter里面运用matplotlib制作一个交互式的图表界面,然而,画出来的图简直不是excel2013能比的,由于对界面和matplotlib研究原创 2016-01-25 22:12:36 · 2135 阅读 · 0 评论 -
使用dumbo开发hadoop streaming程序
1. dumbo的官网:https://github.com/klbostee/dumbo/wiki: https://github.com/klbostee/dumbo/wiki2. 安装配置详见wiki:https://github.com/klbostee/dumbo/wiki/Building-and-installing解压从网站下载下来的源码到dumbo转载 2016-01-28 00:58:34 · 865 阅读 · 0 评论 -
hadoop SecondNamenode详解
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义:* The Secondary Namenode is a helper to the primary转载 2014-05-27 18:00:38 · 1015 阅读 · 0 评论 -
使用MapReduce实现矩阵向量相乘
1 描述 假定有一个 n*n 的矩阵 M ,其第 i 行第 j 列的元素记为 。假定有一个 n 维向量 v ,其第 j 个元素记为 。于是,矩阵 M 和向量 v 的乘积结果是一个 n 维向量 x,其第 i 个元素 为 如: 要求输入:11 22 3333 44 5566 77 88 输出:0 2201 4转载 2014-05-27 10:50:50 · 1284 阅读 · 0 评论 -
nutch安装,与solr整合
linux环境下安装ant,svn原创 2014-05-23 17:59:29 · 1437 阅读 · 0 评论 -
配置hadoop集群时,ssh无密码登陆设置(各个主机的用户名需要一样)
目标:在配置hadoop分布式安装过程中,需要配置ssh的无密码登录。在组建hadoop集群的时候,需要多台实体机进行通信(发送或者读取数据,namenode和datanode之间)就是借助ssh,在通信过程中如果需要操作人员频繁输入密码是不切实际的,所以需要ssh的无密码登录。环境:主机hadoop0,namenode,centos6.4 操作系统,用户名ha原创 2014-02-21 17:23:27 · 5285 阅读 · 2 评论 -
Hadoop添加删除节点
添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@转载 2014-02-13 23:12:00 · 935 阅读 · 0 评论 -
ssh加密方式和telnet
hadoop节点间通信是通过ssh协议进行的,所以想要实现hadoop节点之间的无密码登录通信就要设置ssh无密码登录。hadooop设置ssh无密码登录的命令:ssh -keygen -t rsassh和telnet是两个进行远程连接的通信协议。ssh 是加密的,基于 SSL 。telnet 是明码传输的,发送的数据被监听后不需要解密就能看到内容。==以下为引用原创 2014-02-15 23:10:40 · 3792 阅读 · 0 评论 -
安装cdh4.5工具cloudera manager
我们安装的时候需要官网下载cloudera-manager-installer.bin,然后运行,在安装的过程中,会出现很多问题。如Error Downloading Packages: cloudera-manager-server-db-4.8.1-1.cm481.p0.74.el6.x86_64: failure: RPMS/x86_64/cloudera-manager-se原创 2014-02-28 13:06:25 · 3203 阅读 · 0 评论 -
Cloudera CDH 、Impala本地通过Parcel安装配置详解
Cloudera CDH 、Impala本地通过Parcel安装配置详解详细见链接:http://www.cnblogs.com/shudonghe/archive/2013/06/19/3145013.html创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备:ht原创 2014-03-18 17:18:18 · 2174 阅读 · 0 评论 -
hadoop常问问题
hadoop常问问题:1,hadoop的调度机制,2,机架感知,3,MR数据倾斜原因和解决方案,4,集群HA配置5,mapreduce的流程6,如果让你设计,你觉得一个分布式文件系统应该如何设计,考虑哪方面内容;7,每天百亿数据入hbase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据;8,对于hive,你写过哪些UDF函数,作用是什么9,原创 2014-03-31 15:54:48 · 1155 阅读 · 0 评论 -
CDH 4.6 Apache Hadoop的下一代mapreduce,yarn
MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.MapreduceThe fundamental idea of MRv2 is to split up the two major functional原创 2014-04-06 12:14:23 · 1715 阅读 · 2 评论 -
各个datanode的storageID不一样,导致启动datanode不成功。
我们在启动hadoop各个节点时,启动namenode和datanode,这个时候如果原创 2014-04-24 15:36:58 · 3153 阅读 · 0 评论 -
hbase界面操作指南
https://github.com/zhang-xzhi/simplehbaseviewer https://github.com/zhang-xzhi/simplehbase原创 2014-04-26 12:22:03 · 1543 阅读 · 0 评论 -
mapreduce 作业优化
map阶段优化参数:io.sort.mb(default 100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该转载 2014-05-19 23:25:33 · 873 阅读 · 0 评论 -
Hadoop之MapReduce 分析
摘要:MapReduce是Hadoop的又一核心模块,从MapReduce是什么,MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce。关键词:Hadoop MapReduce 分布式处理面对大数据,大数据的存储和处理,就好比一个人的左右手,显得尤为重要。Hadoop比较适合解决大数据问题,很大程度上依赖其大数据存储系统,即HDFS和大数据转载 2014-06-05 15:46:21 · 828 阅读 · 0 评论 -
MapReduce实现推荐系统
1.开发环境:Windows 2008 64bitJava 1.6.0_30MyEclipse 6.5环境部署见:http://www.linuxidc.com/Linux/2014-02/96528.htm2.Hadoop集群环境:Oracle Linux Enterprise 5.9Java 1.6.0_18Hadoop:hado转载 2014-06-05 15:50:09 · 1504 阅读 · 0 评论 -
Hadoop MapReduce作业的生命周期
首先,我们来看如下的一张图:作业的整个运行过程分为5个步骤:1、作业的提交和初始化。用户提交作业后,由JobClient实例将作业相关信息(jar包、配置文件xml、分片元信息等)上传到HDFS。然后,JobClient通过RPC通知JobTracker。JobTracker接收到新作业请求后,由作业调度模块对作业进行初始化,为作业创建一个JobInProg转载 2014-06-05 16:49:34 · 1001 阅读 · 0 评论 -
Hadoop之MapReduce框架心跳机制分析
1、概述MapReduce框架中的master/slave心跳机制是整个集群运作的基础,是沟通TaskTracker和JobTracker的桥梁。TaskTracker周期性地调用心跳RPC函数,汇报节点和任务运行状态信息。MapReduce框架中通过心跳机制可以实现给TaskTracker分配任务、使JobTracker能够及时获取各个节点的资源使用情况和任务运行状态信息、判断TaskT转载 2014-06-05 15:43:14 · 1724 阅读 · 0 评论 -
开源日志系统比较:scribe、chukwa、kafka、flume
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩转载 2014-06-10 15:11:05 · 948 阅读 · 0 评论 -
fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志
Fluentd是一个开源收集事件和日志系统,它目前提供150+扩展插件让你存储大数据用于日志搜索,数据分析和存储。官方地址http://fluentd.org/ 插件地址http://fluentd.org/plugin/Kibana 是一个为 ElasticSearch 提供日志分析的 Web ui工具,可使用它对日志进行高效的搜索、可视化、分析等各种操作。官方地址http:/转载 2014-06-10 18:02:57 · 1713 阅读 · 0 评论 -
Cloudera hadoop配置文件地址和修改配置属性方法
问题导读1.cloudera 的配置文件路径默认在什么位置?2.如何通过cloudera manager web UI修改配置文件?配置文件地址:Hadoop: /etc/hadoop/confhbase: /etc/hadoop/confhive: /etc/hive/conf使用cloudera manager web UI 修改hadoop .xm转载 2016-01-12 18:52:56 · 14711 阅读 · 0 评论