2014年11月_Chuck_lee

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 linux shell脚本学习xargs命令使用详解

xargs是一条Unix和类Unix操作系统的常用命令。它的作用是将参数列表转换成小块分段传递给其他命令，以避免参数列表过长的问题例如，下面的命令：复制代码代码如下:rm `find /path -type f`如果path目录下文件过多就会因为“参数列表过长”而报错无法执行。但改用xargs以后，问题即获解决

2014-11-20 09:11:23 702

原创 Shell+Linux命令实现日志分析

这篇文章主要介绍了Shell+Linux命令实现日志分析,本文给出了结合grep命令、awk命令等实现了几个常用的日志分析统计长命令,需要的朋友可以参考下一、列出当天访问次数最多的IP命令：复制代码代码如下:cut -d- -f 1 /usr/local/apache2/logs/access_log |uniq -c

2014-11-20 09:09:09 879

原创 linux BASH编程学习笔记

1. Linux 脚本编写基础 1.1 语法基本介绍 1.1.1 开头程序必须以下面的行开始（必须方在文件的第一行）： #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。当编辑好脚本时，如果要执行该脚本，还必须使其可执行。要使脚本可执行：编译 chmod

2014-11-17 10:56:27 594

原创 HIVE优化总结第二弹

一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个ma

2014-11-11 23:28:55 658

原创 Hadoop Streaming 常见错误（不断更新ing)

1、streaming默认的情况下，mapper和reducer的返回值不是0，被认为异常任务，将被再次执行，默认尝试4次都不是0，整个job都将失败[plain] view plaincopyjava.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess fail

2014-11-11 22:48:59 2481 1

原创 Hive的multi-distinct可能带来性能恶化之案例优化

目前hive的版本支持multi-distinct的特性，这个在用起来比较方便，但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化，如日志中常常统计pv，Uv，独立ip数，独立session

2014-11-10 13:45:15 851

转载 HIVE优化总结

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时

2014-11-05 16:49:32 584

转载关于拉链表

(一)概念拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。在历史表中对客户的一生的记录可能就这样几条记录，避免了按每一天记录客户状态造成的海量存储的问题：（NAME）人名（START-DATE）开始日期（END-DT）结束日期（STAT）状态

2014-11-03 15:24:06 1359