龙明倩-CSDN博客

原创解决KETTLE调用http传输中文参数的问题

场景：检查服务器异常（hive）服务，就通过http发送一条短信到手机上，内容类似：【通知】${START_DATE}_hive服务检测异常${DB_ID}，实现的ktr如下：2016/09/08 15:43:05 - Spoon - 转换已经打开.2016/09/08 15:43:05 - Spoon - 正在打开转换 [dxl_t]...2016/09/08 15:43:05

2016-09-08 15:57:33 15614 1

原创 hive 1.2.1的常量大坑bug

同事发现在hive 1.2.1和hive 0.13版本里面赋值常量，同样的SQL，得到结果是不同的， SQL如下：insert overwrite table testselect month_id, client_version, mac_id, 202030106 as kpi_id, kpi_value,

2016-07-07 17:48:04 2344

转载 MapReduce任务Shuffle Error错误

调整hive去重的SQL，采用collect_set去重，根据唯一值MD5去重，效果貌似可以提升，但是遇到错误：Task with the most failures(4): -----Task ID: task_1458621585996_246153_r_000000URL: http://bis-newnamenode-s-01:8088/taskdeta

2016-06-30 09:06:54 1435 1

原创 hadoop启动报错-namenode无法启动-GC overhead limit exceeded

报错场景：凌晨4:30分钟报错日志：2016-03-22 04:30:29,075 WARN org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getFileInfo from 10.10.10.43:54994 Ca

2016-03-22 14:51:43 4353

转载 yarn is running beyond physical memory limits 问题解决

yarn is running beyond physical memory limits 问题解决Diagnostic Messages for this Task:Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical

2016-03-22 11:47:58 1262

原创 hadoop错误-Java heap space at org.apache.hadoop.io.BoundedByteArrayOutputStream

设置set mapreduce.job.reduces=68;把reduce调大，会出错？Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#3 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run

2016-03-04 09:00:05 1226

转载 java常用设计模式

转于：http://www.cnblogs.com/hnrainll/archive/2011/12/29/2305582.html设计模式；一个程序员对设计模式的理解:“不懂”为什么要把很简单的东西搞得那么复杂。后来随着软件开发经验的增加才开始明白我所看到的“复杂”恰恰就是设计模式的精髓所在，我所理解的“简单”就是一把钥匙开一把锁的模式，目的仅仅是着眼于解决现在的问题

2016-03-02 15:42:22 392

原创 hive函数-regexp_extractd的例子

正则表达式解析函数：regexp_extract语法: regexp_extract(string subject, string pattern, int index) 返回值: string说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。注意，在有些情况下要使用转义字符举例：hive> select regexp_extract

2016-03-02 10:47:42 4592

原创 hive-错误-处理解压文件gz出错

gz压缩文件上传到hdfs，hive读取处理Task with the most failures(4): -----Task ID: task_1456816082333_1354_m_000339URL: http://xxxx:8088/taskdetails.jsp?jobid=job_1456816082333_1354&tipid=task_14

2016-03-02 00:00:10 2682 1

原创 hadoop错误-YarnException: Unauthorized request to start container

集群没做调整，昨天突然出现大量的执行失败，是启动就失败的hive任务：，如下图点开History是由于一台服务器导致，错误代码：Application application_1456816082333_0023 failed 2 times due to Error launching appattempt_1456816082333_0023_000002. Got excep

2016-03-01 16:32:50 2993

转载 hadoop学习点滴，积累

1、磁盘篇： 1）hadoop可以并行使用磁盘，通过配置dfs.data.dir和mapred.data.dir参数 2）slave节点的服务器磁盘不需要配备RAID，来自Yahoo测试的使用经验，配备RAID磁盘的hadoop集群在I/O整体性能上反而不如不做磁盘RAID的集群。 3）单块磁盘损坏会造成RAID 0 节点所有磁盘失效，从而造成整个节点不可用

2016-02-16 15:33:58 314

原创 16年的期待

新的一年来了，农历年刚过完，开工！博客N久没更新，惭愧！尽管写得不好，也是需要坚持，要不文笔越来越陌生了！16年满怀期待，健康、家庭、工作！一切都需努力，需去实行！健康方面需要坚持锻炼，晨练需要拾起！每天早上还需坚持晨跑！家庭，做好日常的家务，一周要带孩子出外玩耍一把！工作，多了去，两个大的方向，把支撑大数据级别的网络架构搭建起来，深入hadoop架

2016-02-16 15:16:39 400

转载 hadoop-Shuffle$ShuffleError: error in shuffle in fetcher#4错误（InMemoryMapOutput）

任务到reduce时，90%多时，有时会出错：Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121) at

2015-12-30 12:04:57 3070 1

转载 Spark传说是神技

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它

2014-10-30 17:52:37 760

转载 hive中UDF、UDAF和UDTF使用

hive中UDF、UDAF和UDTF使用 2012-06-19 15:49:22| 分类：云计算 | 标签：hive |举报|字号订阅Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查

2014-04-17 11:30:54 21791

原创 kettle5.0修改的程序，4.3版本无法打开

凌晨正常调用数据，出现元数据读取错误，很奇怪的问题，发现初始化程序INITI_VAR昨晚有修改的记录，用kettle4.3版本无法打开，后来调试用4.4和5.0就可以打开，难道是因为版本不兼容导致了，低版本不能调用高版本的程序。测试过程： 1、用kettle5.0新建一个job，4.3版本可以打开； 2、用kettle5.0新建一个transfro

2014-03-31 09:50:31 1564

转载 hadoop三个配置文件的参数含义说明

[置顶] hadoop三个配置文件的参数含义说明1 获取默认配置配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:

2014-03-28 17:23:43 739

原创 mysql实现一样变多行（表关联，批量实现）

网上很多方法是采用split的方式，写函数，判断分隔符，来截取字段放到临时表，但这样，无法批量来处理一行变多行的问题，如一个log文件，里面的日志格式为：1 a,b,c,d,2,3,42 abb,bbb,ccc,222,333要产生这样的结果：1 a1 b1 c1 d1

2014-03-27 18:14:25 4709

原创 kettle操作HIVE，可以链接，但不能取数的问题

进行hadoop copy file后，hive也可以在kettle进行脚本操作！今天遇到一个问题，kettle采用“表输入”的方式获取数据，输出到文件或者库，问题：2014/03/25 11:36:55 - hadoop_hive_test - ERROR (version 4.4.0-stable, build 17588 from 2012-11-21 16.02.21 by

2014-03-25 12:41:15 8593 5

转载 mysql的show profile

这里还需要注意一点就是，需要安装profile模块才能实现。如下内容转自：http://blog.chinaunix.net/u/29134/showart_480834.html要注意两点。1、不过版本要在5.0.37之后手册上介绍：(SHOW PROFILES and SHOW PROFILE were added in MySQL 5.0.37. )

2014-03-22 09:42:54 547

转载 mysql实现自定义排序

FIELD函数名称field(str,str1,str2,str3,...)描述返回str在str1,str2...中所排的位次。在列举的值中找不到str的情况下，返回值为 0 。如果所有对于FIELD() 的参数均为字符串，则所有参数均按照字符串进行比较。如果所有的参数均为数字，则按照数字进行比较。否则，参数按照双倍进行比较。如果st

2014-03-20 13:54:15 931

原创 kettle采用Hadoop Copy Files出现权限不足的问题

kettle设计如下：测试例子说明：SQL控件，是直接连接HIVE环境，truncate table table；Hadoop Copy Files 是拷贝ETL服务器一个文件到对应的hadoop目录下，也就是HIVE表所在的表目录Hadoop Copy Files 设置如下：执行job，提示权限不足：

2014-03-20 11:45:57 5603 1

转载 HDFS权限问题

HDFS权限问题 Win下Eclipse提交hadoop程序出错：org.apache.hadoop.security.AccessControlException: Permission denied: user=mango, access=WRITE描述：在window下使用Eclipse进行hadoop的程序编写，然后Run on hadoop 后，出现如下错误：

2014-03-20 11:12:57 3254

转载 Hive配置项的含义详解

认为在运行hive sql时可以根据数据情况进行设置，当然还有一些join的优化的配置需要单独研究。 mapred.reduce.tasks：每个作业的reduce任务数，默认是hadoop client的配置1个；hive.exec.reducers.bytes.per.reducer：每个reducer的大小，默认是1G，输入文件如果是10G，那么就会起10个reduc

2014-03-17 20:35:31 969

原创 hive-调优笔记：JVM重用，并行执行、调整reducer个数的用处

解释：1、JVM重用是hadoop调优参数的内容，对hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或者task特别多的场景，这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的，这是jvm的启动过程可能会造成相当大的开销，尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重

2014-03-17 20:01:40 11744

转载 Hadoop调优

Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释：The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解：一个tasktracker最多可以同时运行的map任务数量默认值

2014-03-17 17:10:43 664

转载 Hive 中的日志

日志记录了程序运行的过程，是一种查找问题的利器。Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况，默认的存储情况：hive.root.log

2014-03-17 16:10:28 548

转载 MySQL中MAX函数与Group By一起使用的注意事项

原文：http://blog.csdn.net/magicharvey/article/details/21372813[sql] view plaincopymysql> select * from test; +----+-------+------+-------+ | id | name | age | cla

2014-03-17 15:27:55 663

原创 hive_调优笔记一EXPLAIN解析

接触越多，越需要了解hive背后的理论知识以及底层的一些实现细节，会让用户更加高效地使用Hive --摘于HIVE 编程指南. ----1 使用EXPLAIN 了解Hive是如何工作，第一个就是需要了解EXPLAIN功能使用例子： hive >explain select sum(id) from my;OKABSTRACT

2014-03-15 09:25:22 19763

原创 hive-同一份数据多种处理

hive 提供了一个独特的语法，可以从一个数据源产生多个数据聚合，无需每次聚合都要重新扫描一次。对于大的数据输入集来说，可优化节约非常可观的时间。例子： hive > from table1 > INSERT OVERWRITE TABLE2 select * where action='xx1' > INSERT OVERWR

2014-03-13 11:48:01 5138

转载 hive导出查询文件到本地文件的2种办法

hive导出查询文件到本地文件的2种办法通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候我们可以利用hive来生成统计的中间文件（比源文件小的多的）方法有如下2种： 1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录：生成的文件数和redurcer的数目的一样的在hive下面执行INSE

2014-03-13 11:27:08 918

原创 infobright优化-group by 字段在过程再次处理会很耗时

原SQL，因为要转化省份是NULL的情况，在group by 的字段中需要做IFNULL(province_id, 999) SELECT 20140311, app_id, IFNULL(province_id, 999), 2160101, COUNT(DISTINCT imei) FROM fac

2014-03-12 19:23:41 1595

原创 hive的文件格式-RCfile

Facebook数据仓库揭秘说到，RCFile（Record Columnar File）存储结构遵循的是“先水平划分，再垂直划分”的设计理念，它结合了行存储和列存储的优点：首先，RCFile保证同一行的数据位于同一节点，因此元组重构的开销很低；其次，像列存储一样，RCFile能够利用列维度的数据压缩，并且能跳过不必要的列读取RCfile是HIVE的列式存储，压缩通常会

2014-03-12 13:53:59 2069

转载主流列式数据库评测:InfiniDB和MonetDB

主流列式数据库评测:InfiniDB和MonetDB来源：IT168网（主流列式数据库评测:南大通用GBase 8a和主流列式数据库评测之Infobright）中，列式存储数据库GBase 8a和Infobright给我们的印象是虽然在数据压缩上面有一些优势，整体查询性能还是落后于传统数据库的，下面要介绍的Calpont公司的基于MySQL的InfiniDB和学术组织开

2014-03-10 21:46:35 1963

转载 hive文件存储格式

hive文件存储格式hive文件存储格式包括以下几类：TEXTFILESEQUENCEFILERCFILE自定义格式其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后再从textf

2014-03-10 21:38:16 537

转载 HIVE RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据

2014-03-10 21:35:58 556

转载 hive 桶相关特性分析

hive 桶相关特性分析1. hive 桶相关概念桶(bucket)是指将表或分区中指定列的值为key进行hash，hash到指定的桶中，这样可以支持高效采样工作。抽样（sampling）可以在全体数据上进行采样，这样效率自然就低，它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket，就可以采样所有桶中指定序号的某个桶，这就减少

2014-03-10 21:00:48 632

转载 MySQL触发器之审计功能

MySQL触发器的用处还是非常多地，关键看业务需要，曾经给大家介绍过基于存储引擎MEMORY加触发器的应用场景之一剖析。通过阅读本文，将会告诉大家：触发器的语法知识、触发器的限制、审计案例分析和实现，将逐一讲解。　　语法CREATE 　　[DEFINER = { user | CURRENT_USER }] 　　TRIGGER trigger_name trig

2014-03-10 10:48:22 2255

转载 Hive 内建操作符与函数开发

第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2014-03-07 15:35:25 537

转载 Hive 参数

第一部分：Hive 参数hive.exec.max.created.files•说明：所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明：是否为自动分区•默认值：falsehive.mapred.reduce.tasks.spec

2014-03-07 15:33:17 573