- 博客(8)
- 资源 (30)
- 收藏
- 关注
原创 linux shell脚本学习xargs命令使用详解
xargs是一条Unix和类Unix操作系统的常用命令。它的作用是将参数列表转换成小块分段传递给其他命令,以避免参数列表过长的问题例如,下面的命令:复制代码代码如下:rm `find /path -type f`如果path目录下文件过多就会因为“参数列表过长”而报错无法执行。但改用xargs以后,问题即获解决
2014-11-20 09:11:23 702
原创 Shell+Linux命令实现日志分析
这篇文章主要介绍了Shell+Linux命令实现日志分析,本文给出了结合grep命令、awk命令等实现了几个常用的日志分析统计长命令,需要的朋友可以参考下一、列出当天访问次数最多的IP命令:复制代码代码如下:cut -d- -f 1 /usr/local/apache2/logs/access_log |uniq -c
2014-11-20 09:09:09 879
原创 linux BASH编程学习笔记
1. Linux 脚本编写基础 1.1 语法基本介绍 1.1.1 开头 程序必须以下面的行开始(必须方在文件的第一行): #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。 当编辑好脚本时,如果要执行该脚本,还必须使其可执行。 要使脚本可执行: 编译 chmod
2014-11-17 10:56:27 594
原创 HIVE优化总结第二弹
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma
2014-11-11 23:28:55 658
原创 Hadoop Streaming 常见错误(不断更新ing)
1、streaming默认的情况下,mapper和reducer的返回值不是0,被认为异常任务,将被再次执行,默认尝试4次都不是0,整个job都将失败[plain] view plaincopyjava.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess fail
2014-11-11 22:48:59 2481 1
原创 Hive的multi-distinct可能带来性能恶化之案例优化
目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session
2014-11-10 13:45:15 851
转载 HIVE优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时
2014-11-05 16:49:32 584
转载 关于拉链表
(一)概念 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 在历史表中对客户的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:(NAME)人名 (START-DATE)开始日期 (END-DT)结束日期 (STAT)状态
2014-11-03 15:24:06 1359
数据库原理实验全套源码_DBMS模拟环境_VC6源码
2011-11-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人