hadoop
文章平均质量分 69
aeolus83
这个作者很懒,什么都没留下…
展开
-
Hadoop内存调优
2013-04-10 Hadoop默认情况下给每个子任务的内存大小是200M。对于实际的生产环境,这样的配置很容易捉襟见肘。为此,我们可以在mapred-site.xml中对mapred.child.java.opts属性进行设置。 以下是一个简单的例子: <property> ...原创 2016-06-27 18:25:03 · 193 阅读 · 0 评论 -
Hive To Elasticsearch
hive数据往elasticsearch导入的时候,需要用到一个插件。详情可以查看官网。 具体的用法是这样:在elasticsearch添加表。在hive创建外部表往hive插入数据 关键的步骤是在hive创建表的时候的定义: CREATE EXTERNAL TABLE `report`( `id` string, `rep_date` s...原创 2016-09-21 17:52:50 · 258 阅读 · 0 评论 -
人生苦短用tez
tez是什么? tez官网 普通执行hive 的速度: 用tez引擎后的速度: 使用方法: set hive.execution.engine = tez; 默认值:set hive.execution.engine = mr; ...原创 2016-09-02 10:39:13 · 186 阅读 · 0 评论 -
MapReduce数据倾斜的解决经验
数据倾斜的意思就是某些key对应的信息条数过多,导致对应reducer的内存溢出。 解决这个问题,要区分一下问题引起的原因。无非是:由于对数据构成认识不足,导致启动配置资源的不合理刷量数据的不合理涌入 对于第一种情况,我们可以通过调整reduce的个数,以及reducer的jvm大小来解决。 对于第二种...原创 2016-08-29 13:58:08 · 240 阅读 · 0 评论 -
MapReduce二次排序实现
[size=medium] 最近在学习使用原生的mapreduce来实现对值的排序。以前使用scalding可以很容易的得到结果。现在靠自己的时候,就非常的犯难呢。参考权威指南里的方法:使用的是自定义的key来实现。 原因是hadoop只支持key上的排序。因此,我们可以自定义一种复合的key,并同时定义这个key的比较方法(重载compareTo方法)。以下是这个key的一种...原创 2015-09-14 12:00:14 · 128 阅读 · 0 评论 -
Hadoop部署心得
2012-04-20 超简易心得,以免自己忘记 1. 安装JVM 2. 打开sshps -ef | grep sshd 查看是否启用ssh3. 解压hadoop 4.配置以下文件:hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,1)masters记录运行第二名称节点的机器名(在n...2016-06-28 11:32:42 · 629 阅读 · 0 评论 -
Hadoop名词个人理解
2012-05-16 关于业务流程把一次分布式计算看成是农业的生产过程,hadoop则是一种生产解决方案。 Map:播种的阶段,最后会产出粮食的粗制产品。看做是执行培养活动的农田。 Combiner:顾名思义,联合收割机。把粗制产品收割,然后打包起来等待加工。可以提高加工阶段的效率,当然可以不选择使用。每个农田里用各自的收割机,没听说过一台收割机打遍天下。...原创 2016-06-28 11:19:52 · 145 阅读 · 0 评论 -
关于HIVE的小白经验
最后更新2016-11-24 1. 关于建立数据表 create table在本地系统创建。create external table在HDFS。例子:CREATE EXTERNAL TABLE atr_click_reqid ( atr_reqid string) PARTITIONED BY (datecol string) ROW...原创 2016-06-28 11:13:00 · 139 阅读 · 0 评论 -
Hadoop维护心得
2012-09-04 1. mapper与reducer数量每个子任务是开启一个新的进程来进行的。因此如果不限制mapper或reducer的数量(一般reducer数量少),jobtracker会像个恶毒的老板一样,让某些节点工作到死。 2. include文件与exclude文件最好配置include文件与exclude文件,使得在新插入节点与撤销节点时,能做更少的...原创 2016-06-28 10:55:57 · 222 阅读 · 0 评论 -
为Hadoop集群增加新节点
2012-09-20 前言为一个已存在的Hadoop集群添加新节点,非常简单。可以算即插即用。 首先是要遵循一个规则,集群中的所有机器的Hadoop涉及到的配置位置要一致:安装路径,JDK(使用的版本与安装路径),所属用户与群组。 然后开始做下面的事情: 步骤1. 拷贝一份集群上都用的hadoop包到新节点机器上的指定路径上。我建议一直有一份...原创 2016-06-28 10:51:54 · 169 阅读 · 0 评论 -
为Hadoop集群撤销节点
2012-12-07 步骤:1. 在namenode中应该有至少一个exclude文档,方便将要移除的机器写入其中。对于hdfs,配置属性hdfs.hosts.exclude;对于mapred,配置属性mapred.hosts.exclude。可以都指向该文件。 2. 手动关闭待下架机器的tasktracker。方法:在待下架机器上执行 $HADOOP_HOM...原创 2016-06-27 18:28:09 · 238 阅读 · 0 评论 -
sqoop导入数据脚本
sqoop export \ -D mapred.job.queue.name=hive_user \ --connect jdbc:mysql://${host}:${port}/${db} \ --username ${username} \ --password ${password} \ --ta...2018-09-30 11:14:26 · 393 阅读 · 0 评论