解决KETTLE调用http传输中文参数的问题 场景:检查服务器异常(hive)服务,就通过http发送一条短信到手机上,内容类似:【通知】${START_DATE}_hive服务检测异常${DB_ID},实现的ktr如下:2016/09/08 15:43:05 - Spoon - 转换已经打开.2016/09/08 15:43:05 - Spoon - 正在打开转换 [dxl_t]...2016/09/08 15:43:05
hive 1.2.1的常量大坑bug 同事发现在hive 1.2.1和hive 0.13版本里面赋值常量,同样的SQL,得到结果是不同的, SQL如下:insert overwrite table testselect month_id, client_version, mac_id, 202030106 as kpi_id, kpi_value,
MapReduce任务Shuffle Error错误 调整hive去重的SQL,采用collect_set去重,根据唯一值MD5去重,效果貌似可以提升,但是遇到错误:Task with the most failures(4): -----Task ID: task_1458621585996_246153_r_000000URL: http://bis-newnamenode-s-01:8088/taskdeta
hadoop启动报错-namenode无法启动-GC overhead limit exceeded 报错场景:凌晨4:30分钟报错日志:2016-03-22 04:30:29,075 WARN org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getFileInfo from 10.10.10.43:54994 Ca
yarn is running beyond physical memory limits 问题解决 yarn is running beyond physical memory limits 问题解决Diagnostic Messages for this Task:Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical
hadoop错误-Java heap space at org.apache.hadoop.io.BoundedByteArrayOutputStream 设置set mapreduce.job.reduces=68;把reduce调大,会出错?Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#3 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run
java常用设计模式 转于:http://www.cnblogs.com/hnrainll/archive/2011/12/29/2305582.html设计模式;一个程序员对设计模式的理解:“不懂”为什么要把很简单的东西搞得那么复杂。后来随着软件开发经验的增加才开始明白我所看到的“复杂”恰恰就是设计模式的精髓所在,我所理解的“简单”就是一把钥匙开一把锁的模式,目的仅仅是着眼于解决现在的问题
hive函数-regexp_extractd的例子 正则表达式解析函数:regexp_extract语法: regexp_extract(string subject, string pattern, int index) 返回值: string说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。注意,在有些情况下要使用转义字符举例:hive> select regexp_extract
hive-错误-处理解压文件gz出错 gz压缩文件上传到hdfs,hive读取处理Task with the most failures(4): -----Task ID: task_1456816082333_1354_m_000339URL: http://xxxx:8088/taskdetails.jsp?jobid=job_1456816082333_1354&tipid=task_14
hadoop错误-YarnException: Unauthorized request to start container 集群没做调整,昨天突然出现大量的执行失败,是启动就失败的hive任务:,如下图点开History是由于一台服务器导致,错误代码:Application application_1456816082333_0023 failed 2 times due to Error launching appattempt_1456816082333_0023_000002. Got excep
hadoop学习点滴,积累 1、磁盘篇: 1)hadoop可以并行使用磁盘,通过配置dfs.data.dir和mapred.data.dir参数 2)slave节点的服务器磁盘不需要配备RAID,来自Yahoo测试的使用经验,配备RAID磁盘的hadoop集群在I/O整体性能上反而不如不做磁盘RAID的集群。 3)单块磁盘损坏会造成RAID 0 节点所有磁盘失效,从而造成整个节点不可用
16年的期待 新的一年来了,农历年刚过完,开工!博客N久没更新,惭愧!尽管写得不好,也是需要坚持,要不文笔越来越陌生了!16年满怀期待,健康、家庭、工作!一切都需努力,需去实行!健康方面需要坚持锻炼,晨练需要拾起!每天早上还需坚持晨跑!家庭,做好日常的家务,一周要带孩子出外玩耍一把!工作,多了去,两个大的方向,把支撑大数据级别的网络架构搭建起来,深入hadoop架
hadoop-Shuffle$ShuffleError: error in shuffle in fetcher#4错误(InMemoryMapOutput) 任务到reduce时,90%多时,有时会出错:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121) at
Spark传说是神技 Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它
hive中UDF、UDAF和UDTF使用 hive中UDF、UDAF和UDTF使用 2012-06-19 15:49:22| 分类: 云计算 | 标签:hive |举报|字号 订阅Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查
kettle5.0修改的程序,4.3版本无法打开 凌晨正常调用数据,出现元数据读取错误,很奇怪的问题,发现初始化程序INITI_VAR昨晚有修改的记录,用kettle4.3版本无法打开,后来调试用4.4和5.0就可以打开,难道是因为版本不兼容导致了,低版本不能调用高版本的程序。测试过程: 1、用kettle5.0新建一个job,4.3版本可以打开; 2、用kettle5.0新建一个transfro
hadoop三个配置文件的参数含义说明 [置顶] hadoop三个配置文件的参数含义说明1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:
mysql实现一样变多行(表关联,批量实现) 网上很多方法是采用split的方式,写函数,判断分隔符,来截取字段放到临时表,但这样,无法批量来处理一行变多行的问题,如一个log文件,里面的日志格式为:1 a,b,c,d,2,3,42 abb,bbb,ccc,222,333要产生这样的结果:1 a1 b1 c1 d1
kettle操作HIVE,可以链接,但不能取数的问题 进行hadoop copy file后,hive也可以在kettle进行脚本操作!今天遇到一个问题,kettle采用“表输入”的方式获取数据,输出到文件或者库,问题:2014/03/25 11:36:55 - hadoop_hive_test - ERROR (version 4.4.0-stable, build 17588 from 2012-11-21 16.02.21 by
mysql的show profile 这里还需要注意一点就是,需要安装profile模块才能实现。如下内容转自:http://blog.chinaunix.net/u/29134/showart_480834.html要注意两点。1、不过版本要在5.0.37之后手册上介绍:(SHOW PROFILES and SHOW PROFILE were added in MySQL 5.0.37. )