学无止境

心有凌云志,无高不可攀

从Spark Streaming 收集应用程序日志到Flume agent的配置方法

从Spark Streaming 收集应用程序日志到Flume agent的配置方法由于Spark 本身也是log4j收集日志,所以我们在应用程序里再配置一个log4j。先说一下spark Streaming 启动方法,在spark 启动的时候添加以下两个参数:--conf "spark...

2016-02-03 17:35:36

阅读数 2693

评论数 0

理解flume hdfs sink round 和roll

我们在配置flume hdfs sink 的时候注意这两个配置项,比如: collector1.sinks.sink_hdfs.hdfs.rollSize = 2048000000  collector1.sinks.sink_hdfs.hdfs.rollCount = 0  collect...

2015-10-20 15:49:13

阅读数 8199

评论数 2

CDH 5.3.0 一个小任务运行了12个小时的原因。

本来一个小任务,周末定时任务却跑了12个小时,查看日志,满屏都是: 2015-09-13 00:02:51,433 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocat...

2015-09-14 11:33:39

阅读数 5116

评论数 1

Nginx 编译,添加未编译安装模块ngx_cache_purge

Nginx 编译,添加未编译安装模块ngx_cache_purge 官网下载nginx及第三方ngx_cache_purge 模块 http://wiki.nginx.org/Install http://labs.frickle.com/nginx_ngx_cache_purge/ 编译与...

2015-07-07 15:19:48

阅读数 11832

评论数 1

spark streaming 调试技巧

spark streaming 如果以local 模式运行,log日志非常清楚。 如果log 日志是运行在yarn 模式下,driver 的日志可以通过reource manager 日志看到。但是executor的日志却看不到,我们往往错误都发生在executor里,比如典型的错误:如果我们连...

2015-04-29 11:58:20

阅读数 8447

评论数 2

一个spark receiver 或多个spark receiver 接收 多个flume agent

利用一个spark receiver 接收多个flume agentString host = args[0]; int port = Integer.parseInt(args[1]); String host1 = args[2]; int port1 = Integer.pars...

2015-04-08 16:54:09

阅读数 4653

评论数 0

每隔一段时间,hbase 的读就会停顿10s的原因及解决办法

产生的原因:前段时间由于设置region server 的heapsize 为16g,使得block cache 的大小变为16g*0.4=3.2g,查看日志发现了jvm 隔一段时间会出现如下日志:2015-03-24 16:09:27,405 WARN org.apache.hadoop.hba...

2015-03-24 17:48:35

阅读数 12229

评论数 2

怎样去找出线上hive或mapreduce运行慢的原因

hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程: 1. top 发现进程: 2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程: 3.  用...

2014-08-19 16:30:42

阅读数 7644

评论数 0

hive-- 请不要用动态分区(如果分区可以确定)

如果分区是可以确定的话,千万不要用动态分区,动态分区的值是在reduce运行阶段确定的.也就是会把所有的记录distribute by。 可想而知表记录非常大的话,只有一个reduce 去处理,那简直是疯狂的。如果这个值唯一或者事先已经知道,比如按天分区(i_date=20140819) 那就用静...

2014-08-19 16:26:42

阅读数 12962

评论数 0

mapr- hadoop 更换坏掉的磁盘

列出服务器所在的磁盘:maprcli disk list -host 127.0.0.1移除坏掉的磁盘:maprcli disk remove -host 127.0.0.1 -disks /dev/sdk添加新的磁盘:maprcli disk add -host 127.0.0.1 -disks...

2014-01-20 18:27:44

阅读数 5263

评论数 1

greenplum 激活standby 和恢复 master 原有角色

定义:server1=(master) server2=(standby) Active standby server when master down.  gpactivatestandby -d /data/master/gpseg-1 -f (on server2) Cha...

2013-12-24 18:17:30

阅读数 5491

评论数 0

hive 非等值连接sql写法

hive不支持非等值连接 join操作。如: select * from  tonyjointest b join rtb_requests a  on b.domain like a.domian%); 但可以转化成这样: select * from  tonyjointe...

2013-12-20 14:31:08

阅读数 10845

评论数 3

hive 实现 udf row_number 以及遇到的问题

为hive的每条数据添加row_number, 首先添加行号,必须考虑到数据必须放在一个reduce中去执行。先上代码 package xx.xxxxx.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apac...

2013-11-08 18:24:54

阅读数 5351

评论数 0

Reduce 优化(mapr)

1、合理设计桶的大小,插入桶的时候,桶的数目和reduce的数目一致,结合map的输出大小合理设置桶的大小,否则在reduce阶段就会非常慢。 2、查看reduce的copy的速率,如果map output的文件过多,mapred.reduce.parallel.copies默认是12(mapr...

2013-10-30 10:48:55

阅读数 3159

评论数 0

hive 优化 tips

一、     Hive join优化 1.     尽量将小表放在join的左边,我们使用的Hive-0.90,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable....

2013-10-17 15:40:21

阅读数 4697

评论数 0

一个hive任务的分析

一位开发人员每天跑相同的任务,但是他发现某一天同样的任务处理大约差不多量的数据(都是大约4亿条,hive count的结果),处理时间却相差3倍之多,一个不到一个小时,一个运行了三个小时,记录一下分析步骤。 1. 首先用explain看一下hive语句执行步骤再去找对应的job任务。 可以看...

2013-10-17 15:03:58

阅读数 7064

评论数 1

利用Map Reduce 过滤大数据的解决方案

问题引入:假设从200亿条记录中(大约200G)查找100多条其中的记录,不考虑集群的计算能力,我们可以这样写mapreduce: 直接不考虑数据量大小,reduce阶段一次行过滤。 public static class UserChainSixMapper extends Mapper ...

2013-03-21 16:41:08

阅读数 5846

评论数 0

Java多线程编程

用多线程处理以下场景: 文件中有原始数据,通过一个线程 T1监控文件路径,把原始数据读到同步队列Q1中。线程T2读取Q1中的数据并处理把结果放到同步队列Q2中,等待子线程T2处理。在T2中开N个子线程T3处理Q2的数据,并把处理结果放到同步集合Set3中。线程T2汇总其本身及子线程T3处...

2013-02-04 17:00:42

阅读数 3573

评论数 0

模拟实现Struts拦截器-蕴含着代理模式,AOP,工厂模式,依赖注入,Java 反射,动态构造等机制

先说说代理模式:是来源于我们传统的思想,比如,我想去青岛办一些事,但是人不在青岛,于是我委托在青岛的朋友代理我去办。软件中的代理模式可以有约束性代理,远程代理,缓存代理等。 AOP设计哲学-我们在软件工程中,往往从纵向思维去设计软件,比如传统的三层思想(表示层,业务层,数据层),但是我们来个横行...

2012-11-19 14:52:29

阅读数 3595

评论数 0

Java, C#, JavaScript三种语言实现工厂模式

工厂模式的思想是:”把实例的创建延迟到子类去“ Java版 抽象产品类: package Factory; public interface IProduct { void doSomething(); } 具体类1,具体类2: package Factory; pub...

2012-10-25 15:49:31

阅读数 2741

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭