自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(73)
  • 资源 (13)
  • 收藏
  • 关注

原创 解决KETTLE调用http传输中文参数的问题

场景:检查服务器异常(hive)服务,就通过http发送一条短信到手机上,内容类似:【通知】${START_DATE}_hive服务检测异常${DB_ID},实现的ktr如下:2016/09/08 15:43:05 - Spoon - 转换已经打开.2016/09/08 15:43:05 - Spoon - 正在打开转换 [dxl_t]...2016/09/08 15:43:05

2016-09-08 15:57:33 15594 1

原创 hive 1.2.1的常量大坑bug

同事发现在hive 1.2.1和hive 0.13版本里面赋值常量,同样的SQL,得到结果是不同的,  SQL如下:insert overwrite  table testselect  month_id,      client_version,      mac_id,      202030106 as kpi_id,      kpi_value,     

2016-07-07 17:48:04 2329

转载 MapReduce任务Shuffle Error错误

调整hive去重的SQL,采用collect_set去重,根据唯一值MD5去重,效果貌似可以提升,但是遇到错误:Task with the most failures(4): -----Task ID:  task_1458621585996_246153_r_000000URL:  http://bis-newnamenode-s-01:8088/taskdeta

2016-06-30 09:06:54 1422 1

原创 hadoop启动报错-namenode无法启动-GC overhead limit exceeded

报错场景:凌晨4:30分钟报错日志:2016-03-22 04:30:29,075 WARN org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getFileInfo from 10.10.10.43:54994 Ca

2016-03-22 14:51:43 4336

转载 yarn is running beyond physical memory limits 问题解决

yarn is running beyond physical memory limits 问题解决Diagnostic Messages for this Task:Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical

2016-03-22 11:47:58 1253

原创 hadoop错误-Java heap space at org.apache.hadoop.io.BoundedByteArrayOutputStream

设置set mapreduce.job.reduces=68;把reduce调大,会出错?Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#3 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run

2016-03-04 09:00:05 1218

转载 java常用设计模式

转于:http://www.cnblogs.com/hnrainll/archive/2011/12/29/2305582.html设计模式;一个程序员对设计模式的理解:“不懂”为什么要把很简单的东西搞得那么复杂。后来随着软件开发经验的增加才开始明白我所看到的“复杂”恰恰就是设计模式的精髓所在,我所理解的“简单”就是一把钥匙开一把锁的模式,目的仅仅是着眼于解决现在的问题

2016-03-02 15:42:22 383

原创 hive函数-regexp_extractd的例子

正则表达式解析函数:regexp_extract语法: regexp_extract(string subject, string pattern, int index) 返回值: string说明:将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。注意,在有些情况下要使用转义字符举例:hive> select regexp_extract

2016-03-02 10:47:42 4579

原创 hive-错误-处理解压文件gz出错

gz压缩文件上传到hdfs,hive读取处理Task with the most failures(4): -----Task ID:  task_1456816082333_1354_m_000339URL:  http://xxxx:8088/taskdetails.jsp?jobid=job_1456816082333_1354&tipid=task_14

2016-03-02 00:00:10 2661 1

原创 hadoop错误-YarnException: Unauthorized request to start container

集群没做调整,昨天突然出现大量的执行失败,是启动就失败的hive任务:,如下图点开History是由于一台服务器导致,错误代码:Application application_1456816082333_0023 failed 2 times due to Error launching appattempt_1456816082333_0023_000002. Got excep

2016-03-01 16:32:50 2958

转载 hadoop学习点滴,积累

1、磁盘篇:     1)hadoop可以并行使用磁盘,通过配置dfs.data.dir和mapred.data.dir参数      2)slave节点的服务器磁盘不需要配备RAID,来自Yahoo测试的使用经验,配备RAID磁盘的hadoop集群在I/O整体性能上反而不如不做磁盘RAID的集群。      3)单块磁盘损坏会造成RAID 0 节点所有磁盘失效,从而造成整个节点不可用

2016-02-16 15:33:58 308

原创 16年的期待

新的一年来了,农历年刚过完,开工!博客N久没更新,惭愧!尽管写得不好,也是需要坚持,要不文笔越来越陌生了!16年满怀期待,健康、家庭、工作!一切都需努力,需去实行!健康方面需要坚持锻炼,晨练需要拾起!每天早上还需坚持晨跑!家庭,做好日常的家务,一周要带孩子出外玩耍一把!工作,多了去,两个大的方向,把支撑大数据级别的网络架构搭建起来,深入hadoop架

2016-02-16 15:16:39 392

转载 hadoop-Shuffle$ShuffleError: error in shuffle in fetcher#4错误(InMemoryMapOutput)

任务到reduce时,90%多时,有时会出错:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121) at

2015-12-30 12:04:57 3043 1

转载 Spark传说是神技

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它

2014-10-30 17:52:37 750

转载 hive中UDF、UDAF和UDTF使用

hive中UDF、UDAF和UDTF使用  2012-06-19 15:49:22|  分类: 云计算 |  标签:hive  |举报|字号 订阅Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查

2014-04-17 11:30:54 21769

原创 kettle5.0修改的程序,4.3版本无法打开

凌晨正常调用数据,出现元数据读取错误,很奇怪的问题,发现初始化程序INITI_VAR昨晚有修改的记录,用kettle4.3版本无法打开,后来调试用4.4和5.0就可以打开,难道是因为版本不兼容导致了,低版本不能调用高版本的程序。测试过程:   1、用kettle5.0新建一个job,4.3版本可以打开;  2、用kettle5.0新建一个transfro

2014-03-31 09:50:31 1550

转载 hadoop三个配置文件的参数含义说明

[置顶] hadoop三个配置文件的参数含义说明1       获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:

2014-03-28 17:23:43 730

原创 mysql实现一样变多行(表关联,批量实现)

网上很多方法是采用split的方式,写函数,判断分隔符,来截取字段放到临时表,但这样,无法批量来处理一行变多行的问题,如一个log文件,里面的日志格式为:1       a,b,c,d,2,3,42       abb,bbb,ccc,222,333要产生这样的结果:1       a1       b1       c1       d1

2014-03-27 18:14:25 4691

原创 kettle操作HIVE,可以链接,但不能取数的问题

进行hadoop copy file后,hive也可以在kettle进行脚本操作!今天遇到一个问题,kettle采用“表输入”的方式获取数据,输出到文件或者库,问题:2014/03/25 11:36:55 - hadoop_hive_test - ERROR (version 4.4.0-stable, build 17588 from 2012-11-21 16.02.21 by

2014-03-25 12:41:15 8576 5

转载 mysql的show profile

这里还需要注意一点就是,需要安装profile模块才能实现。如下内容转自:http://blog.chinaunix.net/u/29134/showart_480834.html要注意两点。1、不过版本要在5.0.37之后手册上介绍:(SHOW PROFILES and SHOW PROFILE were added in MySQL 5.0.37. )

2014-03-22 09:42:54 537

转载 mysql实现自定义排序

FIELD函数名称field(str,str1,str2,str3,...)描述返回str在str1,str2...中所排的位次。在列举的值中找不到str的情况下,返回值为 0 。如果所有对于FIELD() 的参数均为字符串,则所有参数均按照字符串进行比较。如果所有的参数均为数字,则按照数字进行比较。否则,参数按照双倍进行比较。 如果st

2014-03-20 13:54:15 920

原创 kettle采用Hadoop Copy Files出现权限不足的问题

kettle设计如下:测试例子说明:SQL控件,是直接连接HIVE环境,truncate table table;Hadoop Copy Files 是拷贝ETL服务器一个文件到对应的hadoop目录下,也就是HIVE表所在的表目录Hadoop Copy Files 设置如下:执行job,提示权限不足:

2014-03-20 11:45:57 5585 1

转载 HDFS权限问题

HDFS权限问题 Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=mango, access=WRITE描述:在window下使用Eclipse进行hadoop的程序编写,然后Run on hadoop 后,出现如下错误:

2014-03-20 11:12:57 3245

转载 Hive配置项的含义详解

认为在运行hive sql时可以根据数据情况进行设置,当然还有一些join的优化的配置需要单独研究。 mapred.reduce.tasks:每个作业的reduce任务数,默认是hadoop client的配置1个;hive.exec.reducers.bytes.per.reducer:每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起10个reduc

2014-03-17 20:35:31 961

原创 hive-调优笔记:JVM重用,并行执行、调整reducer个数的用处

解释:1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的,这是jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。    JVM重用可以使得JVM实例在同一个JOB中重

2014-03-17 20:01:40 11714

转载 Hadoop调优

Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run  simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值

2014-03-17 17:10:43 657

转载 Hive 中的日志

日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.log

2014-03-17 16:10:28 542

转载 MySQL中MAX函数与Group By一起使用的注意事项

原文:http://blog.csdn.net/magicharvey/article/details/21372813[sql] view plaincopymysql> select * from test;  +----+-------+------+-------+  | id | name  | age  | cla

2014-03-17 15:27:55 657

原创 hive_调优笔记一EXPLAIN解析

接触越多,越需要了解hive背后的理论知识以及底层的一些实现细节,会让用户更加高效地使用Hive   --摘于HIVE 编程指南. ----1    使用EXPLAIN    了解Hive是如何工作,第一个就是需要了解EXPLAIN功能    使用例子:    hive >explain select sum(id) from my;OKABSTRACT

2014-03-15 09:25:22 19748

原创 hive-同一份数据多种处理

hive 提供了一个独特的语法,可以从一个数据源产生多个数据聚合,无需每次聚合都要重新扫描一次。对于大的数据输入集来说,可优化节约非常可观的时间。例子:    hive > from table1           > INSERT OVERWRITE TABLE2 select *  where action='xx1'          > INSERT OVERWR

2014-03-13 11:48:01 5120

转载 hive导出查询文件到本地文件的2种办法

hive导出查询文件到本地文件的2种办法 通过HQL语句可以将hive  中表的数据生成到指定的目录。有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)方法有如下2种: 1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录:生成的文件数 和redurcer的数目的一样的在hive下面执行INSE

2014-03-13 11:27:08 913

原创 infobright优化-group by 字段在过程再次处理会很耗时

原SQL,因为要转化省份是NULL的情况,在group by  的字段中需要做IFNULL(province_id, 999) SELECT 20140311,         app_id,         IFNULL(province_id, 999),         2160101,         COUNT(DISTINCT imei)    FROM fac

2014-03-12 19:23:41 1590

原创 hive的文件格式-RCfile

Facebook数据仓库揭秘说到,RCFile(Record Columnar File)存储结构遵循的是“先水平划分,再垂直划分”的设计理念,它结合了行存储和列存储的优点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳过不必要的列读取RCfile是HIVE的列式存储,压缩通常会

2014-03-12 13:53:59 2054

转载 主流列式数据库评测:InfiniDB和MonetDB

主流列式数据库评测:InfiniDB和MonetDB来源:IT168网(主流列式数据库评测:南大通用GBase 8a和主流列式数据库评测之Infobright)中,列式存储数据库GBase 8a和Infobright给我们的印象是虽然在数据压缩上面有一些优势,整体查询性能还是落后于传统数据库的,下面要介绍的Calpont公司的基于MySQL的InfiniDB和学术组织开

2014-03-10 21:46:35 1938

转载 hive文件存储格式

hive文件存储格式hive文件存储格式包括以下几类:TEXTFILESEQUENCEFILERCFILE自定义格式其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textf

2014-03-10 21:38:16 531

转载 HIVE RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据

2014-03-10 21:35:58 550

转载 hive 桶相关特性分析

hive 桶相关特性分析1. hive 桶相关概念    桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。    抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少

2014-03-10 21:00:48 623

转载 MySQL触发器之审计功能

MySQL触发器的用处还是非常多地,关键看业务需要,曾经给大家介绍过基于存储引擎MEMORY加触发器的应用场景之一剖析。通过阅读本文,将会告诉大家:触发器的语法知识、触发器的限制、审计案例分析和实现,将逐一讲解。  语法CREATE   [DEFINER = { user | CURRENT_USER }]   TRIGGER trigger_name trig

2014-03-10 10:48:22 2241

转载 Hive 内建操作符与函数开发

第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2014-03-07 15:35:25 525

转载 Hive 参数

第一部分:Hive 参数hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.spec

2014-03-07 15:33:17 568

block change tracking和rman通常增量备份方式的比较

block change tracking和rman通常增量备份方式的比较.txt

2010-10-26

rman异机恢复实践全图解析

rman异机恢复 实践全图解析,主要描述如何实现rman的异地异路径恢复

2010-10-26

rman 异地恢复,备份路径不一样时数据库恢复

rman 异地恢复,备份路径不一样时数据库恢复

2010-10-26

Oracle_Rac环境Rman备份与恢复

Oracle_Rac环境Rman备份与恢复.doc

2010-10-26

ORACLE_数据库备份与恢复之四:RMAN_备份与恢复管理器

ORACLE_数据库备份与恢复之四:RMAN_备份与恢复管理器.pdf

2010-10-26

Linux下Oracle9i_RMAN备份及恢复步骤介

Linux下Oracle9i_RMAN备份及恢复步骤介.doc

2010-10-26

Oracle 9i RMAN参考使用手册

Oracle 9i RMAN参考使用手册

2010-10-26

oracle rac技术

By Piner 本文定位在那些有了一定Linux 与oracle 基础的,而且对RAC 也要有相关了解热人员作为参 考手册,而不是所谓的安装向导。所以本文没有详细的安装过程之类的步骤,却有详细的安装错 误的解决办法。

2009-02-27

数据库性能调优.原理与技术

为了使读者对本资料所描述的内容有直接的理解,这里从总结的角度出发,给出了深入了解 数据库性能调优.原理与技术 的管理所需的准备知识小结,如果读者对基本的概念已经很熟悉

2009-02-24

ORACLE9i_优化设计与系统调整

为了使读者对本资料所描述的内容有直接的理解,这里从总结的角度出发,给出了深入了解 Oracle8i/9i 的管理所需的准备知识小结,如果读者对基本的概念已经很熟悉,则可以跳过本 章。

2009-02-24

Oracle DBA应该定期做什么笔记

每个数据库都有一个系统标识符(SID),典型安装的数据库使用的系统标识符是ORCL

2009-02-24

2006工作计划的写法

标题 计划标题一般由四个部分组成:计划的制订单位名称、适用时间、内容性质及计划名称。视计划文本的成熟程度,有可能出现第五个部分,即在标题尾部加括号注明:草案、初稿、征求意见稿、送审稿等。如《××市19××年再就业工程实施方案(讨论稿)》。

2009-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除