- 博客(73)
- 资源 (13)
- 收藏
- 关注
原创 解决KETTLE调用http传输中文参数的问题
场景:检查服务器异常(hive)服务,就通过http发送一条短信到手机上,内容类似:【通知】${START_DATE}_hive服务检测异常${DB_ID},实现的ktr如下:2016/09/08 15:43:05 - Spoon - 转换已经打开.2016/09/08 15:43:05 - Spoon - 正在打开转换 [dxl_t]...2016/09/08 15:43:05
2016-09-08 15:57:33 15614 1
原创 hive 1.2.1的常量大坑bug
同事发现在hive 1.2.1和hive 0.13版本里面赋值常量,同样的SQL,得到结果是不同的, SQL如下:insert overwrite table testselect month_id, client_version, mac_id, 202030106 as kpi_id, kpi_value,
2016-07-07 17:48:04 2344
转载 MapReduce任务Shuffle Error错误
调整hive去重的SQL,采用collect_set去重,根据唯一值MD5去重,效果貌似可以提升,但是遇到错误:Task with the most failures(4): -----Task ID: task_1458621585996_246153_r_000000URL: http://bis-newnamenode-s-01:8088/taskdeta
2016-06-30 09:06:54 1435 1
原创 hadoop启动报错-namenode无法启动-GC overhead limit exceeded
报错场景:凌晨4:30分钟报错日志:2016-03-22 04:30:29,075 WARN org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getFileInfo from 10.10.10.43:54994 Ca
2016-03-22 14:51:43 4353
转载 yarn is running beyond physical memory limits 问题解决
yarn is running beyond physical memory limits 问题解决Diagnostic Messages for this Task:Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical
2016-03-22 11:47:58 1262
原创 hadoop错误-Java heap space at org.apache.hadoop.io.BoundedByteArrayOutputStream
设置set mapreduce.job.reduces=68;把reduce调大,会出错?Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#3 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run
2016-03-04 09:00:05 1226
转载 java常用设计模式
转于:http://www.cnblogs.com/hnrainll/archive/2011/12/29/2305582.html设计模式;一个程序员对设计模式的理解:“不懂”为什么要把很简单的东西搞得那么复杂。后来随着软件开发经验的增加才开始明白我所看到的“复杂”恰恰就是设计模式的精髓所在,我所理解的“简单”就是一把钥匙开一把锁的模式,目的仅仅是着眼于解决现在的问题
2016-03-02 15:42:22 392
原创 hive函数-regexp_extractd的例子
正则表达式解析函数:regexp_extract语法: regexp_extract(string subject, string pattern, int index) 返回值: string说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。注意,在有些情况下要使用转义字符举例:hive> select regexp_extract
2016-03-02 10:47:42 4592
原创 hive-错误-处理解压文件gz出错
gz压缩文件上传到hdfs,hive读取处理Task with the most failures(4): -----Task ID: task_1456816082333_1354_m_000339URL: http://xxxx:8088/taskdetails.jsp?jobid=job_1456816082333_1354&tipid=task_14
2016-03-02 00:00:10 2682 1
原创 hadoop错误-YarnException: Unauthorized request to start container
集群没做调整,昨天突然出现大量的执行失败,是启动就失败的hive任务:,如下图点开History是由于一台服务器导致,错误代码:Application application_1456816082333_0023 failed 2 times due to Error launching appattempt_1456816082333_0023_000002. Got excep
2016-03-01 16:32:50 2993
转载 hadoop学习点滴,积累
1、磁盘篇: 1)hadoop可以并行使用磁盘,通过配置dfs.data.dir和mapred.data.dir参数 2)slave节点的服务器磁盘不需要配备RAID,来自Yahoo测试的使用经验,配备RAID磁盘的hadoop集群在I/O整体性能上反而不如不做磁盘RAID的集群。 3)单块磁盘损坏会造成RAID 0 节点所有磁盘失效,从而造成整个节点不可用
2016-02-16 15:33:58 314
原创 16年的期待
新的一年来了,农历年刚过完,开工!博客N久没更新,惭愧!尽管写得不好,也是需要坚持,要不文笔越来越陌生了!16年满怀期待,健康、家庭、工作!一切都需努力,需去实行!健康方面需要坚持锻炼,晨练需要拾起!每天早上还需坚持晨跑!家庭,做好日常的家务,一周要带孩子出外玩耍一把!工作,多了去,两个大的方向,把支撑大数据级别的网络架构搭建起来,深入hadoop架
2016-02-16 15:16:39 400
转载 hadoop-Shuffle$ShuffleError: error in shuffle in fetcher#4错误(InMemoryMapOutput)
任务到reduce时,90%多时,有时会出错:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121) at
2015-12-30 12:04:57 3070 1
转载 Spark传说是神技
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它
2014-10-30 17:52:37 760
转载 hive中UDF、UDAF和UDTF使用
hive中UDF、UDAF和UDTF使用 2012-06-19 15:49:22| 分类: 云计算 | 标签:hive |举报|字号 订阅Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查
2014-04-17 11:30:54 21791
原创 kettle5.0修改的程序,4.3版本无法打开
凌晨正常调用数据,出现元数据读取错误,很奇怪的问题,发现初始化程序INITI_VAR昨晚有修改的记录,用kettle4.3版本无法打开,后来调试用4.4和5.0就可以打开,难道是因为版本不兼容导致了,低版本不能调用高版本的程序。测试过程: 1、用kettle5.0新建一个job,4.3版本可以打开; 2、用kettle5.0新建一个transfro
2014-03-31 09:50:31 1564
转载 hadoop三个配置文件的参数含义说明
[置顶] hadoop三个配置文件的参数含义说明1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:
2014-03-28 17:23:43 739
原创 mysql实现一样变多行(表关联,批量实现)
网上很多方法是采用split的方式,写函数,判断分隔符,来截取字段放到临时表,但这样,无法批量来处理一行变多行的问题,如一个log文件,里面的日志格式为:1 a,b,c,d,2,3,42 abb,bbb,ccc,222,333要产生这样的结果:1 a1 b1 c1 d1
2014-03-27 18:14:25 4709
原创 kettle操作HIVE,可以链接,但不能取数的问题
进行hadoop copy file后,hive也可以在kettle进行脚本操作!今天遇到一个问题,kettle采用“表输入”的方式获取数据,输出到文件或者库,问题:2014/03/25 11:36:55 - hadoop_hive_test - ERROR (version 4.4.0-stable, build 17588 from 2012-11-21 16.02.21 by
2014-03-25 12:41:15 8593 5
转载 mysql的show profile
这里还需要注意一点就是,需要安装profile模块才能实现。如下内容转自:http://blog.chinaunix.net/u/29134/showart_480834.html要注意两点。1、不过版本要在5.0.37之后手册上介绍:(SHOW PROFILES and SHOW PROFILE were added in MySQL 5.0.37. )
2014-03-22 09:42:54 547
转载 mysql实现自定义排序
FIELD函数名称field(str,str1,str2,str3,...)描述返回str在str1,str2...中所排的位次。在列举的值中找不到str的情况下,返回值为 0 。如果所有对于FIELD() 的参数均为字符串,则所有参数均按照字符串进行比较。如果所有的参数均为数字,则按照数字进行比较。否则,参数按照双倍进行比较。 如果st
2014-03-20 13:54:15 931
原创 kettle采用Hadoop Copy Files出现权限不足的问题
kettle设计如下:测试例子说明:SQL控件,是直接连接HIVE环境,truncate table table;Hadoop Copy Files 是拷贝ETL服务器一个文件到对应的hadoop目录下,也就是HIVE表所在的表目录Hadoop Copy Files 设置如下:执行job,提示权限不足:
2014-03-20 11:45:57 5603 1
转载 HDFS权限问题
HDFS权限问题 Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=mango, access=WRITE描述:在window下使用Eclipse进行hadoop的程序编写,然后Run on hadoop 后,出现如下错误:
2014-03-20 11:12:57 3254
转载 Hive配置项的含义详解
认为在运行hive sql时可以根据数据情况进行设置,当然还有一些join的优化的配置需要单独研究。 mapred.reduce.tasks:每个作业的reduce任务数,默认是hadoop client的配置1个;hive.exec.reducers.bytes.per.reducer:每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起10个reduc
2014-03-17 20:35:31 969
原创 hive-调优笔记:JVM重用,并行执行、调整reducer个数的用处
解释:1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的,这是jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重
2014-03-17 20:01:40 11744
转载 Hadoop调优
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值
2014-03-17 17:10:43 664
转载 Hive 中的日志
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.log
2014-03-17 16:10:28 548
转载 MySQL中MAX函数与Group By一起使用的注意事项
原文:http://blog.csdn.net/magicharvey/article/details/21372813[sql] view plaincopymysql> select * from test; +----+-------+------+-------+ | id | name | age | cla
2014-03-17 15:27:55 663
原创 hive_调优笔记一EXPLAIN解析
接触越多,越需要了解hive背后的理论知识以及底层的一些实现细节,会让用户更加高效地使用Hive --摘于HIVE 编程指南. ----1 使用EXPLAIN 了解Hive是如何工作,第一个就是需要了解EXPLAIN功能 使用例子: hive >explain select sum(id) from my;OKABSTRACT
2014-03-15 09:25:22 19763
原创 hive-同一份数据多种处理
hive 提供了一个独特的语法,可以从一个数据源产生多个数据聚合,无需每次聚合都要重新扫描一次。对于大的数据输入集来说,可优化节约非常可观的时间。例子: hive > from table1 > INSERT OVERWRITE TABLE2 select * where action='xx1' > INSERT OVERWR
2014-03-13 11:48:01 5138
转载 hive导出查询文件到本地文件的2种办法
hive导出查询文件到本地文件的2种办法 通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)方法有如下2种: 1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录:生成的文件数 和redurcer的数目的一样的在hive下面执行INSE
2014-03-13 11:27:08 918
原创 infobright优化-group by 字段在过程再次处理会很耗时
原SQL,因为要转化省份是NULL的情况,在group by 的字段中需要做IFNULL(province_id, 999) SELECT 20140311, app_id, IFNULL(province_id, 999), 2160101, COUNT(DISTINCT imei) FROM fac
2014-03-12 19:23:41 1595
原创 hive的文件格式-RCfile
Facebook数据仓库揭秘说到,RCFile(Record Columnar File)存储结构遵循的是“先水平划分,再垂直划分”的设计理念,它结合了行存储和列存储的优点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳过不必要的列读取RCfile是HIVE的列式存储,压缩通常会
2014-03-12 13:53:59 2069
转载 主流列式数据库评测:InfiniDB和MonetDB
主流列式数据库评测:InfiniDB和MonetDB来源:IT168网(主流列式数据库评测:南大通用GBase 8a和主流列式数据库评测之Infobright)中,列式存储数据库GBase 8a和Infobright给我们的印象是虽然在数据压缩上面有一些优势,整体查询性能还是落后于传统数据库的,下面要介绍的Calpont公司的基于MySQL的InfiniDB和学术组织开
2014-03-10 21:46:35 1963
转载 hive文件存储格式
hive文件存储格式hive文件存储格式包括以下几类:TEXTFILESEQUENCEFILERCFILE自定义格式其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textf
2014-03-10 21:38:16 537
转载 HIVE RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据
2014-03-10 21:35:58 556
转载 hive 桶相关特性分析
hive 桶相关特性分析1. hive 桶相关概念 桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少
2014-03-10 21:00:48 632
转载 MySQL触发器之审计功能
MySQL触发器的用处还是非常多地,关键看业务需要,曾经给大家介绍过基于存储引擎MEMORY加触发器的应用场景之一剖析。通过阅读本文,将会告诉大家:触发器的语法知识、触发器的限制、审计案例分析和实现,将逐一讲解。 语法CREATE [DEFINER = { user | CURRENT_USER }] TRIGGER trigger_name trig
2014-03-10 10:48:22 2255
转载 Hive 内建操作符与函数开发
第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE
2014-03-07 15:35:25 537
转载 Hive 参数
第一部分:Hive 参数hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.spec
2014-03-07 15:33:17 573
oracle rac技术
2009-02-27
数据库性能调优.原理与技术
2009-02-24
ORACLE9i_优化设计与系统调整
2009-02-24
2006工作计划的写法
2009-02-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人