日志分析相关
shj1119
这个作者很懒,什么都没留下…
展开
-
shell对NULL值的判断
近期的日志分析任务对分析的次数有了要求,从一天一次向几分钟一次靠拢,显然这不是hive该做的事。但鉴于领导要求先用hive来处理这样的需求,那就硬着头皮先弄出来再说。主要的思路就是每次分析语句执行之前,先查一次关系数据库存放结果的表,得到上一次分析结果的最大时间,然后此次的分析只获取那个时间点之后的数据。 此文考虑的是针对第一次执行的时候,数据库中没有信息,得到的最大时间值是NUL原创 2013-04-22 11:24:54 · 3959 阅读 · 0 评论 -
udf udaf udtf
udf:用户自定义的函数,针对每一行,可以传递一列或者多列作为参数。 udaf:用户自定义函数,但针对的是所有行,也就是聚合函数的意思。 udtf:针对的是输入一行数据,输出多行数据的需求,类似于hive自带的explode函数。 http://wdicc.com/udf-in-hive/原创 2013-04-22 11:31:48 · 866 阅读 · 0 评论 -
2013-03-18 0%-%33-0%-33%
1 试验以tab键分割是否可以, 改了create table语句,以delimited field by ‘/t' 这样分割出来的日期是带[],所以重写了datetimeconvert的udf 2 某产品查询任务,reduce执行到33%就又变成0%,再变成33%,直到报错: java.lang.RuntimeException: org.apache.hadoop.hive.ql.m原创 2013-04-19 13:43:38 · 1138 阅读 · 0 评论 -
2013-03-01
1 执行jar文件 java.util.zip.ZipException: error in opening zip file 文件看看存在不,不存在的话就看看原来和现在所在位置的jdk版本一致不 2 50030页面打不开,50070可以打开,hadoop上传下载文件都没有问题,就是不能执行作业,会报9001连接不上,被拒绝的错误。各个节点的jps显示进程数也是正常的,但主节点查看mapre原创 2013-04-16 16:51:18 · 3340 阅读 · 0 评论 -
2013-03-15
查询某个产品的日志时,select语句的map reduce任务进度反复,记得好像是map从0变到50%,就不往下进行了,直到失败,没有明显可辨的错误信息出来,只是提示时间过长,超时失败。 首先在网上查询,大多数是提示,修改mapred-site.xml文件,将mapred.task,timeout这个参数值调大,或者设置为0,将永远不提示超时,结果就是任务进度反复更长的时间之后,提原创 2013-04-16 16:45:50 · 606 阅读 · 0 评论 -
2013-03-07 脚本的雏形
将hive cli中测试通过的语句,整理成脚本的形式: analyzefunc( ){ hive -e "create external table if not exists temp (ip STRING,identd STRING,username STRING,handledate STRING,requrl STRING,status int,returnbytes int,ref原创 2013-04-19 13:14:33 · 497 阅读 · 0 评论 -
2013-03-05 udf
今天主要是一些学习的记录。 因为后台日志文件里的时间是英文格式的,在进行分析时需要转换为普通的YYYY-MM-DD HH:MM:ss的格式,查阅了hive的官方文档。 发现hive自身有提供一些时间函数,仔细看了下,都不能满足需求。就开始看了下UDF,打算自己写一个日期转换函数。 1 Creating Custom UDFs First, you need to原创 2013-04-18 16:53:28 · 760 阅读 · 0 评论 -
2013-04-11 关于自定义format
1 hivelib下的jar包更换了之后,要想语句使用新的jar包,得在hive cli中执行quit;退出后重新进入。 2在hive-site.xml中加入对jar包的引用,对整个集群都有效。不用每次都add。 hive.aux.jars.path file:///opt/hive-0.9.0/lib/hive_ufida.jar 3 hive不支持insert into ta原创 2013-05-16 08:41:34 · 579 阅读 · 0 评论