2016年11月_TechChan

12月 11月

转载 Kettle实现MapReduce之WordCount

一.创建Mapper转换如下图,mapper读取hdfs输入，进行word的切分，输出每个word和整数常量值 1>MapReduce Input:Mapper输入,读取HDFS上的输入文件内容以键值对存储; 2>Spit filed to rows:读取value值以分隔符 "|" 进行切分(注意我这里hdfs文件中的word是以"|"隔开的) 3

2016-11-30 11:02:26 1981

转载 Hive mapjoin使用(数据倾斜优化)

今天遇到一个Hive的问题，如下hive sql：select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。

2016-11-30 11:01:34 3347

转载彻底理解MapReduce shuffle过程原理

MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据

2016-11-30 10:59:44 11811

转载 Hive中小表与大表关联(join)的性能分析zz

其实hive优化的建议是多表关联的时候将大表放在后面，因为前面的关联结果要放入内存。不过博主文章本身写的也不错。经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓

2016-11-30 10:59:04 2217

转载 hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2016-11-30 10:58:15 949

转载 Sqoop导入hive分隔符问题

Sqoop从Oracle导入数据到Hive，示例：[plain] view plain copysqoop import --connect jdbc:oracle:thin:@oracle-host:port:orcl --username name--password passwd --hive-import -table tablename

2016-11-29 14:33:02 6619

转载从零开始安装、编译、部署 Docker

简介主要介绍如何从基础系统debian部署docker关于docker基础知识在相关资料里有链接安装docker1、使用root用户身份添加apt源添加public key使docker的安装源授信$ curl -s 'https://sks-keyservers.net/pks/lookup?op=get&search=0xee6d536cf7dc86e2

2016-11-28 18:12:15 6590

转载 Docker的安装配置及使用详解

Docker 包括三个基本概念镜像（Image）容器（Container）仓库（Repository）先理解了这三个概念，就理解了 Docker 的整个生命周期。1、docker安装与启动 1 yum install -y epel-release 2 yum install docker-io # 安装docker 3 # 配置文件 /etc/s

2016-11-28 17:58:12 1567

转载 Docker快速安装部署

Docker是一个开源的容器引擎，可以轻松的为任何应用创建轻量级、可移植的、自给自足的容器。Docker容器可以批量在生产环境中部署，支持物理机、vm虚拟机、OpenStack等iaas层基础设施。 Docker通常应用于如下场景：web应用的自动化打包和部署；自动化测试和持续集成、部署应用系统微服务化改造通过mesos和kubernetes等框架做集成来搭建自己的Paas环境

2016-11-28 17:55:09 12983

转载 Docker到底是什么？

如果你是数据中心或云计算IT圈子的人，这一年多来应该一直在听到普通的容器、尤其是Docker，关于它们的新闻从未间断过。Docker1.0在今年6月发布后，声势更是达到了前所未有的程度。动静之所以这么大，就是因为许多公司在以惊人的速度采用Docker。在今年7月的开源大会（OSCon）上，我遇到了早已将服务器应用程序从虚拟机（VM）转移到容器的无数企业。的确，Docker

2016-11-28 17:14:08 1099

转载 HIVE安装

1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面，但是考虑到 master节点的负荷比较大，我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外，在我

2016-11-24 14:59:45 967

转载 sqoop的安装与使用

以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz，打算安装在/usr/local目录下。首先就是解压缩，重命名为sqoop，然后在文件/etc/profile中设置环境变量SQOOP_HOME。把mysql的jdbc驱动mysql-connector-j

2016-11-24 14:33:41 2785

转载 Sqoop详细介绍包括：sqoop命令，原理，流程

一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。

2016-11-24 14:06:31 2990

转载 JobTracker和TaskTracker概述

一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：(1)概述：JobTracke

2016-11-24 11:41:30 2302

转载基于Flume的美团日志收集系统(二)改进和优化

问题导读：1.Flume的存在些什么问题？2.基于开源的Flume美团增加了哪些功能？3.Flume系统如何调优？在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构设计，以及为什么做这样的设计。在本节中，我们将会讲述在实际部署和使用过程中遇到的问题，对Flume的功能改进和对系统做的优化

2016-11-21 18:03:01 1131

转载基于Flume的美团日志收集系统(一)架构和设计

问题导读：1.Flume-NG与Scribe对比，Flume-NG的优势在什么地方？2.架构设计考虑需要考虑什么问题？3.Agent死机该如何解决？4.Collector死机是否会有影响？5.Flume-NG可靠性(reliability)方面做了哪些措施？美团的日志收集系统负责美团的所有业务日志的收集，并分别给Hadoop平台提供离线数据和Storm平

2016-11-21 18:00:44 1060

转载大数据流难以管理？借助StreamSets来驾驭

物联网数据有望发掘独特的、前所未有的业务洞察力，不过前提是企业能够成功地管理从众多物联网数据源流入的数据。许多企业试图从物联网项目获得价值，但经常遇到的一个问题是数据漂移(data drift)：源设备和数据处理基础设施经常发生不可预测的变化，因而导致数据的结构、内容或含义发生变化。无论流式处理还是批量处理，数据通常经由众多工具，从数据源进入到最后的存储位置。这条链上任何地方的变化都会导致

2016-11-21 17:50:48 3572

转载 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie？Oozie是一种Java Web应用程序，它运行在

2016-11-21 17:38:11 1029

转载 Apache Sentry架构介绍

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件，截止目前还是Apache的孵化项目，它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成，未来会扩展到其他的Hadoop组件，例如HDFS和HBase。特性Apache Sentry为H

2016-11-21 17:27:00 4188

转载 Kudu：一个为大数据快速分析量身定制的新型Apache Hadoop存储系统

Apache Hadoop提供了一系列数据存储与处理的组件，覆盖了多种多样、应用于企业级关键服务的用户案例。在Cloudera，我们一直在努力探索Hadoop的各种可能性，拓展Hadoop的边界——使得Hadoop更快、更好用、更安全。自2012年，我们开启了一个关于Apache Hadoop存储系统的验证工作(避免Hadoop被约束在部分特定用户案例中)。验证过程中，我们发现

2016-11-21 17:19:33 1840

我们知道storm的作用主要是进行流式计算，对于源源不断的均匀数据流流入处理是非常有效的，而现实生活中大部分场景并不是均匀的数据流，而是时而多时而少的数据流入，这种情况下显然用批量处理是不合适的，如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉，应对这种情况，使用kafka作为消息队列是非常合适的选择，kafka可以将不均匀的数据转换成均匀的消息流，从而和storm比较完善的结合，

2016-11-21 16:51:00 1024

转载都是HIVE数据倾斜惹的祸

症状和原因：操作：join,group by,count distinct 原因：key分布不均匀，人为的建表疏忽，业务数据特点。症状：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。倾斜度：平均记录数超过50w且最大记录数是超过

2016-11-08 17:46:50 695

转载 hive sql 优化

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合，相当于Combinerhive.groupby.skewindata=true

2016-11-08 15:58:28 634

ERWin操作手册

ERWin 手册

2014-10-13

JQuery 右下角弹提示框设置控制实例

2014-08-21

JQuery 在FrameSet页面右下角提示框实例

JQuery 右下角提示框 FrameSet，

2014-08-21

微信商城源码

2014-01-24

Hadoop深度实战

一个完整的Hadoop 分布式集群及开发实例

2013-12-30

Oracle init.ora 配置详解

Oracle init.ora 配置详解 Oracle init.ora 配置详解 Oracle init.ora 配置详解

2011-08-16

Rational Rose 2003教程

Rational Rose 2003教程很不错的PPT教程

2011-07-27

Cognos SDK 开发实例应用

Cognos SDK 开发实例应用，很好的资源

2011-07-21

Cognos SDK api 2 JAR 包

Cognos SDK api jar 包第二部分

2011-07-21

Cognos SDK API包

Cognos集成API，供SDK集成开发应用

2011-07-21

Cognos 权限配置和管理总结

比较系统的介绍权限的控制管理，展示Cognos的权限配置过程

2011-07-21

Cognos SDK（权限开发小例子）

用户角色权限这部分主要可以实现 1. 第三方认证 2. 新建角色；新建组织；给角色添加用户、组织、角色；给组织添加用户、组织；读取当前角色(组织)已有的成员，给成员设置读写遍历等权限 3. 给Foler，package，rs，as，qs报表设置权限，比如山东小麦专家和山东大豆专家看到不同的文件夹报表等；这块和Cognos在页面上设置权限的功能一样；不过是通过SDK自己包装了，为了给大家有个直观的产品集成的概念J2EE架构+Cognos8.4环境下做了一个小功能demo，后面有效果图简单展示；

2011-07-21

WebService客户端

WebService客户端 WebService客户端 WebService客户端

2011-04-25

soapclient

soapclient soapclient soapclient

2011-04-25

axis-bin-1_4

WebService asdsfasdfasdfas

2011-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

TechChan的专栏

转载 Kettle实现MapReduce之WordCount

转载 Hive mapjoin使用(数据倾斜优化)

转载彻底理解MapReduce shuffle过程原理

转载 Hive中小表与大表关联(join)的性能分析zz

转载 hive优化之------控制hive任务中的map数和reduce数

转载 Sqoop导入hive分隔符问题

转载从零开始安装、编译、部署 Docker

转载 Docker的安装配置及使用详解

转载 Docker快速安装部署

转载 Docker到底是什么？

转载 HIVE安装

转载 sqoop的安装与使用

转载 Sqoop详细介绍包括：sqoop命令，原理，流程

转载 JobTracker和TaskTracker概述

转载基于Flume的美团日志收集系统(二)改进和优化

转载基于Flume的美团日志收集系统(一)架构和设计

转载大数据流难以管理？借助StreamSets来驾驭

转载 Oozie简介

转载 Apache Sentry架构介绍

转载 Kudu：一个为大数据快速分析量身定制的新型Apache Hadoop存储系统

转载 Storm集成Kafka应用的开发

转载都是HIVE数据倾斜惹的祸

转载 hive sql 优化

ERWin操作手册

JQuery 右下角弹提示框设置控制实例

JQuery 在FrameSet页面右下角提示框实例

微信商城源码

Hadoop深度实战

Oracle init.ora 配置详解

Rational Rose 2003教程

Cognos SDK 开发实例应用

Cognos SDK api 2 JAR 包

Cognos SDK API包

Cognos 权限配置和管理总结

Cognos SDK（权限开发小例子）

WebService客户端

soapclient

axis-bin-1_4

空空如也