自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (18)
  • 收藏
  • 关注

转载 Kettle实现MapReduce之WordCount

一.创建Mapper转换如下图,mapper读取hdfs输入,进行word的切分,输出每个word和整数常量值  1>MapReduce Input:Mapper输入,读取HDFS上的输入文件内容以键值对存储; 2>Spit filed to rows:读取value值以分隔符 "|"  进行切分(注意我这里hdfs文件中的word是以"|"隔开的) 3

2016-11-30 11:02:26 1928

转载 Hive mapjoin使用(数据倾斜优化)

今天遇到一个Hive的问题,如下hive sql:select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)  该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。

2016-11-30 11:01:34 3309

转载 彻底理解MapReduce shuffle过程原理

MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据

2016-11-30 10:59:44 11759

转载 Hive中小表与大表关联(join)的性能分析zz

其实hive优化的建议是多表关联的时候将大表放在后面,因为前面的关联结果要放入内存。不过博主文章本身写的也不错。经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果所谓

2016-11-30 10:59:04 2131

转载 hive优化之------控制hive任务中的map数和reduce数

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有

2016-11-30 10:58:15 923

转载 Sqoop导入hive分隔符问题

Sqoop从Oracle导入数据到Hive,示例:[plain] view plain copysqoop import --connect jdbc:oracle:thin:@oracle-host:port:orcl --username name--password passwd --hive-import -table tablename

2016-11-29 14:33:02 6517

转载 从零开始安装、编译、部署 Docker

简介主要介绍如何从基础系统debian部署docker关于docker基础知识在 相关资料 里有链接安装docker1、使用root用户身份添加apt源添加public key使docker的安装源授信$ curl -s 'https://sks-keyservers.net/pks/lookup?op=get&search=0xee6d536cf7dc86e2

2016-11-28 18:12:15 6539

转载 Docker的安装配置及使用详解

Docker 包括三个基本概念镜像(Image)容器(Container)仓库(Repository)先理解了这三个概念,就理解了 Docker 的整个生命周期。1、docker安装与启动  1 yum install -y epel-release 2 yum install docker-io # 安装docker 3 # 配置文件 /etc/s

2016-11-28 17:58:12 1546

转载 Docker快速安装部署

Docker是一个开源的容器引擎,可以轻松的为任何应用创建轻量级、可移植的、自给自足的容器。Docker容器可以批量在生产环境中部署,支持物理机、vm虚拟机、OpenStack等iaas层基础设施。 Docker通常应用于如下场景:web应用的自动化打包和部署;自动化测试和持续集成、部署 应用系统微服务化改造通过mesos和kubernetes等框架做集成来搭建自己的Paas环境

2016-11-28 17:55:09 12945

转载 Docker到底是什么?

如果你是数据中心或云计算IT圈子的人,这一年多来应该一直在听到普通的容器、尤其是Docker,关于它们的新闻从未间断过。Docker1.0在今年6月发布后,声势更是达到了前所未有的程度。 动静之所以这么大,就是因为许多公司在以惊人的速度采用Docker。在今年7月的开源大会(OSCon)上,我遇到了早已将服务器应用程序从虚拟机(VM)转移到容器的无数企业。的确,Docker

2016-11-28 17:14:08 1079

转载 HIVE安装

1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装        Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大,我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外,在我

2016-11-24 14:59:45 946

转载 sqoop的安装与使用

以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz,打算安装在/usr/local目录下。首先就是解压缩,重命名为sqoop,然后在文件/etc/profile中设置环境变量SQOOP_HOME。把mysql的jdbc驱动mysql-connector-j

2016-11-24 14:33:41 2764

转载 Sqoop详细介绍包括:sqoop命令,原理,流程

一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。

2016-11-24 14:06:31 2950

转载 JobTracker和TaskTracker概述

一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。 二 JobTracker剖析:(1)概述:JobTracke

2016-11-24 11:41:30 2227

转载 基于Flume的美团日志收集系统(二)改进和优化

问题导读:1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化

2016-11-21 18:03:01 1118

转载 基于Flume的美团日志收集系统(一)架构和设计

问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平

2016-11-21 18:00:44 1042

转载 大数据流难以管理?借助StreamSets来驾驭

物联网数据有望发掘独特的、前所未有的业务洞察力,不过前提是企业能够成功地管理从众多物联网数据源流入的数据。许多企业试图从物联网项目获得价值,但经常遇到的一个问题是数据漂移(data drift):源设备和数据处理基础设施经常发生不可预测的变化,因而导致数据的结构、内容或含义发生变化。无论流式处理还是批量处理,数据通常经由众多工具,从数据源进入到最后的存储位置。这条链上任何地方的变化都会导致

2016-11-21 17:50:48 3545

转载 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie?Oozie是一种Java Web应用程序,它运行在

2016-11-21 17:38:11 1009

转载 Apache Sentry架构介绍

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase。特性Apache Sentry为H

2016-11-21 17:27:00 4156

转载 Kudu:一个为大数据快速分析量身定制的新型Apache Hadoop存储系统

Apache Hadoop提供了一系列数据存储与处理的组件,覆盖了多种多样、应用于企业级关键服务的用户案例。在Cloudera,我们一直在努力探索Hadoop的各种可能性,拓展Hadoop的边界——使得Hadoop更快、更好用、更安全。自2012年,我们开启了一个关于Apache Hadoop存储系统的验证工作(避免Hadoop被约束在部分特定用户案例中)。验证过程中,我们发现

2016-11-21 17:19:33 1814

转载 Storm集成Kafka应用的开发

我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队列是非常合适的选择,kafka可以将不均匀的数据转换成均匀的消息流,从而和storm比较完善的结合,

2016-11-21 16:51:00 1009

转载 都是HIVE数据倾斜惹的祸

症状和原因:操作:join,group by,count distinct 原因:key分布不均匀,人为的建表疏忽,业务数据特点。症状:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。倾斜度:平均记录数超过50w且最大记录数是超过

2016-11-08 17:46:50 667

转载 hive sql 优化

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true

2016-11-08 15:58:28 613

ERWin操作手册

ERWin 手册

2014-10-13

JQuery 右下角弹提示框设置控制实例

JQuery 右下角弹提示框设置控制实例

2014-08-21

JQuery 在FrameSet页面右下角提示框实例

JQuery 右下角提示框 FrameSet,

2014-08-21

微信商城源码

微信商城源码

2014-01-24

hadoop开发者二期

对于爬虫优化,分布式存储及运算优化,对集群架构一个深入完整的介绍

2013-12-30

Hadoop深度实战

一个完整的Hadoop 分布式集群及开发实例

2013-12-30

CodePro Analytix

代码质量,包括代码检查评审、 metric、设计模式、测试

2011-09-29

Oracle init.ora 配置详解

Oracle init.ora 配置详解 Oracle init.ora 配置详解 Oracle init.ora 配置详解

2011-08-16

Rational Rose 2003教程

Rational Rose 2003教程 很不错的PPT教程

2011-07-27

Cognos SDK 开发实例应用

Cognos SDK 开发实例应用,很好的资源

2011-07-21

Cognos SDK api 2 JAR 包

Cognos SDK api jar 包第二部分

2011-07-21

Cognos SDK API包

Cognos集成API,供SDK集成开发应用

2011-07-21

Cognos 权限配置和管理总结

比较系统的介绍权限的控制管理,展示Cognos的权限配置过程

2011-07-21

Cognos SDK(权限开发小例子)

用户角色权限 这部分主要可以实现 1. 第三方认证 2. 新建角色; 新建组织; 给角色添加用户、组织、角色; 给组织添加用户、组织; 读取当前角色(组织)已有的成员,给成员设置读写遍历等权限 3. 给Foler,package,rs,as,qs报表设置权限,比如山东小麦专家和山东大豆专家看到不同的文件夹报表等; 这块和Cognos在页面上设置权限的功能一样;不过是通过SDK自己包装了,为了给大家有个直观的产品集成的概念J2EE架构+Cognos8.4环境下做了一个小功能demo,后面有效果图简单展示;

2011-07-21

WebService客户端

WebService客户端 WebService客户端 WebService客户端

2011-04-25

soapclient

soapclient soapclient soapclient

2011-04-25

axis-bin-1_4

WebService asdsfasdfasdfas

2011-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除