- 博客(174)
- 资源 (18)
- 收藏
- 关注
转载 oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案
1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH24:mi:ss’被自动截断了,在对时间要求到秒级的分析处理中这种截断会产生问题。2.解决方案: 在用sqoop倒入数据表是,添加--map-
2016-12-27 17:12:28 3491
转载 Kettle实现MapReduce之WordCount
一.创建Mapper转换如下图,mapper读取hdfs输入,进行word的切分,输出每个word和整数常量值 1>MapReduce Input:Mapper输入,读取HDFS上的输入文件内容以键值对存储; 2>Spit filed to rows:读取value值以分隔符 "|" 进行切分(注意我这里hdfs文件中的word是以"|"隔开的) 3
2016-11-30 11:02:26 1999
转载 Hive mapjoin使用(数据倾斜优化)
今天遇到一个Hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。
2016-11-30 11:01:34 3360
转载 彻底理解MapReduce shuffle过程原理
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据
2016-11-30 10:59:44 11831
转载 Hive中小表与大表关联(join)的性能分析zz
其实hive优化的建议是多表关联的时候将大表放在后面,因为前面的关联结果要放入内存。不过博主文章本身写的也不错。经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果所谓
2016-11-30 10:59:04 2234
转载 hive优化之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2016-11-30 10:58:15 959
转载 Sqoop导入hive分隔符问题
Sqoop从Oracle导入数据到Hive,示例:[plain] view plain copysqoop import --connect jdbc:oracle:thin:@oracle-host:port:orcl --username name--password passwd --hive-import -table tablename
2016-11-29 14:33:02 6642
转载 从零开始安装、编译、部署 Docker
简介主要介绍如何从基础系统debian部署docker关于docker基础知识在 相关资料 里有链接安装docker1、使用root用户身份添加apt源添加public key使docker的安装源授信$ curl -s 'https://sks-keyservers.net/pks/lookup?op=get&search=0xee6d536cf7dc86e2
2016-11-28 18:12:15 6626
转载 Docker的安装配置及使用详解
Docker 包括三个基本概念镜像(Image)容器(Container)仓库(Repository)先理解了这三个概念,就理解了 Docker 的整个生命周期。1、docker安装与启动 1 yum install -y epel-release 2 yum install docker-io # 安装docker 3 # 配置文件 /etc/s
2016-11-28 17:58:12 1584
转载 Docker快速安装部署
Docker是一个开源的容器引擎,可以轻松的为任何应用创建轻量级、可移植的、自给自足的容器。Docker容器可以批量在生产环境中部署,支持物理机、vm虚拟机、OpenStack等iaas层基础设施。 Docker通常应用于如下场景:web应用的自动化打包和部署;自动化测试和持续集成、部署 应用系统微服务化改造通过mesos和kubernetes等框架做集成来搭建自己的Paas环境
2016-11-28 17:55:09 13000
转载 Docker到底是什么?
如果你是数据中心或云计算IT圈子的人,这一年多来应该一直在听到普通的容器、尤其是Docker,关于它们的新闻从未间断过。Docker1.0在今年6月发布后,声势更是达到了前所未有的程度。 动静之所以这么大,就是因为许多公司在以惊人的速度采用Docker。在今年7月的开源大会(OSCon)上,我遇到了早已将服务器应用程序从虚拟机(VM)转移到容器的无数企业。的确,Docker
2016-11-28 17:14:08 1108
转载 HIVE安装
1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外,在我
2016-11-24 14:59:45 978
转载 sqoop的安装与使用
以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz,打算安装在/usr/local目录下。首先就是解压缩,重命名为sqoop,然后在文件/etc/profile中设置环境变量SQOOP_HOME。把mysql的jdbc驱动mysql-connector-j
2016-11-24 14:33:41 2797
转载 Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。
2016-11-24 14:06:31 3005
转载 JobTracker和TaskTracker概述
一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。 二 JobTracker剖析:(1)概述:JobTracke
2016-11-24 11:41:30 2329
转载 基于Flume的美团日志收集系统(二)改进和优化
问题导读:1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化
2016-11-21 18:03:01 1143
转载 基于Flume的美团日志收集系统(一)架构和设计
问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平
2016-11-21 18:00:44 1071
转载 大数据流难以管理?借助StreamSets来驾驭
物联网数据有望发掘独特的、前所未有的业务洞察力,不过前提是企业能够成功地管理从众多物联网数据源流入的数据。许多企业试图从物联网项目获得价值,但经常遇到的一个问题是数据漂移(data drift):源设备和数据处理基础设施经常发生不可预测的变化,因而导致数据的结构、内容或含义发生变化。无论流式处理还是批量处理,数据通常经由众多工具,从数据源进入到最后的存储位置。这条链上任何地方的变化都会导致
2016-11-21 17:50:48 3584
转载 Oozie简介
在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie?Oozie是一种Java Web应用程序,它运行在
2016-11-21 17:38:11 1043
转载 Apache Sentry架构介绍
Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase。特性Apache Sentry为H
2016-11-21 17:27:00 4198
转载 Kudu:一个为大数据快速分析量身定制的新型Apache Hadoop存储系统
Apache Hadoop提供了一系列数据存储与处理的组件,覆盖了多种多样、应用于企业级关键服务的用户案例。在Cloudera,我们一直在努力探索Hadoop的各种可能性,拓展Hadoop的边界——使得Hadoop更快、更好用、更安全。自2012年,我们开启了一个关于Apache Hadoop存储系统的验证工作(避免Hadoop被约束在部分特定用户案例中)。验证过程中,我们发现
2016-11-21 17:19:33 1853
转载 Storm集成Kafka应用的开发
我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队列是非常合适的选择,kafka可以将不均匀的数据转换成均匀的消息流,从而和storm比较完善的结合,
2016-11-21 16:51:00 1031
转载 都是HIVE数据倾斜惹的祸
症状和原因:操作:join,group by,count distinct 原因:key分布不均匀,人为的建表疏忽,业务数据特点。症状:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。倾斜度:平均记录数超过50w且最大记录数是超过
2016-11-08 17:46:50 714
转载 hive sql 优化
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true
2016-11-08 15:58:28 652
转载 Hadoop dfs 常用命令行
* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -r
2015-12-29 15:26:19 15436
转载 Hive锁表机制
hive存在两种锁,共享锁Shared (S)和互斥锁Exclusive (X),其中只触发s锁的操作可以并发的执行,只要有一个操作对表或者分区出发了x锁,则该表或者分区不能并发的执行作业。各个操作锁出发的锁如下:Hive CommandLocks Acquiredselect .. T1 partition P1S on
2015-12-29 14:55:52 12541
转载 ETL利器Kettle实战应用
本系列文章主要索引如下:一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】本文主要阅读目录如下:1、Kettle概念2、下载和部署3、Kettle环境配置4、
2015-10-30 14:47:03 18337 1
转载 通过Erwin的反向工程导入实体 之二(自动为物理模型命英文名)
在以前的帖子中说过,要整理下ERwin由逻辑模型到物理模型的映射,一直没时间,今天终于整理了,如下: 项目的建模工具,用的较多的有PD、Rose,我学生时代,就没听说过ERwin,这个工具也是进入项目组之后才了解到的。ERwin中分为逻辑模型和物理模型两种。在创建逻辑模型时,我们都是通过中文设计,这样就更直观的显示模型的作用;物理模型,是直接对数据库进行关联,对数据库进行操
2015-10-21 09:23:00 5621
转载 通过Erwin的反向工程导入实体 之一
1、通过数据库导入实体(此处已Oracle11g,作为实验数据库) (1) 打卡erwin, 单击菜单栏Tool -> Reverse Engineer,弹出如下界面 (2) 选中Logical/Physical,并选择数据库类型,此处选择oracle,“next“,如下图(3) 选择导入的方式”database“,选择导入erwin的用户,"n
2015-10-21 09:22:03 4282
转载 Oracle DB 使用调度程序自动执行任务
• 使用调度程序来简化管理任务• 创建作业、程序和调度• 监视作业执行• 使用基于时间或基于事件的调度来执行调度程序作业• 描述窗口、窗口组、作业类和使用者组的用途• 使用电子邮件通知• 使用作业链来执行一系列相关任务• 描述远程系统上的调度程序作业• 使用高级调度程序概念来区分作业的优先级简化管理任务
2015-10-09 14:06:26 4536
转载 桥接表
How are bridge tables delivered to classify groups of dimension records associated to a single fact?简述桥接表是如何将维度表和事实表进行关联的?答:桥接表(Bridge Table)是维度建模中的一类比较特殊的表。在数据仓库的建模时,会遇到具有层次结构的维度表,对于这样的表有
2015-09-22 16:07:20 6368
转载 Oracle优化器:星型转换(Star Query Transformation )
Star query是一个事实表(fact table)和一些维度表(dimension)的join。每个维度表都跟事实表通过主外键join,且每个维度表之间不join。星型模式设计的好处:1) 提供了直接、直观的业务实体与终端用户schema设计的映射。2) 对典型的star query提供了高性能的优化。3) 通过大量的商
2015-09-21 14:12:08 3035
转载 数据探查
接触数据仓库也半年多了,一直都知道数据质量的重要性, 前面也看过几篇数据质量的博文,但是没有真正的在实践中去做过。上周接触了一下数据探查,发现数据探查对于数据质量是非常重要的一个环节,它是决定最后数据正确性的非常关键的一步。 数据探查阶段为ETL团队提供了指导,告诉他们需要使用多少数据清洗机制,并且使他们不会因为创建处理脏数据的系统分散了注意力而遗漏项目的主要环节。一定要预先进行数据探查工作!
2015-09-14 09:22:58 16725
转载 详解ORACLE数据库的分区表
此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类型及操作方法 5.对表分区的维护性操作. (1.) 表空间及分区表的概念 表空间: 是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间
2015-09-10 10:55:38 1399
转载 Oracle 正则表达式 regexp_like
ORACLE中的支持正则表达式的函数主要有下面四个:1,REGEXP_LIKE :与LIKE的功能相似2,REGEXP_INSTR :与INSTR的功能相似3,REGEXP_SUBSTR :与SUBSTR的功能相似4,REGEXP_REPLACE :与REPLACE的功能相似它们在用法上与Oracle SQL 函数LIKE、INSTR、SUBSTR 和REPLACE 用法相同,
2015-07-17 10:38:28 2767
转载 TransactionProxyFactoryBean代理事务
TransactionProxyFactoryBean代理事务博客分类: SpringSpringBean配置管理JDBCXML 配置文件: Java代码 "1.0" encoding="GBK"?> "-//SPRING//DTD BEAN 2.0//EN" "http://www.springframew
2014-09-11 17:08:42 1139
转载 MyBatis3.1.1+Spring3.1.2+Struts2.3.4.1
地址:http://takeme.iteye.com/blog/1736320MyBatis3.1.1+Spring3.1.2+Struts2.3.4.1 先来看目录结构 来看配置文件 applicationContext.xml Xml代码 xml version="1.0" encoding="UTF-8"?> beans
2014-09-11 16:46:11 2932
转载 struts 2.3.7+spring3.2.0+MyBatis3.1 整合
最近无聊,就想着做一下ssm的整合~在网上先去找资料,但是发现大多都不是入门级。尤其是需要哪些jar,都没有注明出来。 那么我就写一篇,算作是入门的教程,高手勿拍砖~ 一、准备工作 首先去找struts的. http://struts.apache.org/ 下载最新的struts 2.3.7. (在发这篇文章前我发现已经升级
2014-09-11 16:33:02 2388
转载 Struts2.3.16.1+Hibernate4.3.4+Spring4.0.2 框架整合
最新版Struts2+Hibernate+Spring整合 目前为止三大框架最新版本是: struts2.3.16.1 hibernate4.3.4 spring4.0.2 其中struts2和hibernate的下载方式比较简单,但是spring下载有点麻烦,可以直接复制下面链接下载最新版springhttp:
2014-09-11 16:16:09 11742
转载 Struts+Spring+Hibernate开发实例
Struts+Spring+Hibernate开发实例一 介绍本文并不想介绍Struts,Spring,Hibernate的原理系统架构等,本文地目的是通过一个较复杂地实例介绍如何整合Struts,Spring,Hibernate,网上现有的例子虽然也能达到目的,但功能都比较单一,复杂的例子时会有意想不到的麻烦。本文对读者假设已经具备了以上框架的基础知识。以及那些已经了解Struts,
2014-09-11 14:33:11 2900
Cognos SDK(权限开发小例子)
2011-07-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人