2016年11月_TechChan

12月 11月

转载 Kettle实现MapReduce之WordCount

一.创建Mapper转换如下图,mapper读取hdfs输入，进行word的切分，输出每个word和整数常量值 1>MapReduce Input:Mapper输入,读取HDFS上的输入文件内容以键值对存储; 2>Spit filed to rows:读取value值以分隔符 "|" 进行切分(注意我这里hdfs文件中的word是以"|"隔开的) 3

2016-11-30 11:02:26 1928

转载 Hive mapjoin使用(数据倾斜优化)

今天遇到一个Hive的问题，如下hive sql：select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。

2016-11-30 11:01:34 3309

转载彻底理解MapReduce shuffle过程原理

MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据

2016-11-30 10:59:44 11759

转载 Hive中小表与大表关联(join)的性能分析zz

其实hive优化的建议是多表关联的时候将大表放在后面，因为前面的关联结果要放入内存。不过博主文章本身写的也不错。经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓

2016-11-30 10:59:04 2131

转载 hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2016-11-30 10:58:15 923

转载 Sqoop导入hive分隔符问题

Sqoop从Oracle导入数据到Hive，示例：[plain] view plain copysqoop import --connect jdbc:oracle:thin:@oracle-host:port:orcl --username name--password passwd --hive-import -table tablename

2016-11-29 14:33:02 6517

转载从零开始安装、编译、部署 Docker

简介主要介绍如何从基础系统debian部署docker关于docker基础知识在相关资料里有链接安装docker1、使用root用户身份添加apt源添加public key使docker的安装源授信$ curl -s 'https://sks-keyservers.net/pks/lookup?op=get&search=0xee6d536cf7dc86e2

2016-11-28 18:12:15 6539

转载 Docker的安装配置及使用详解

Docker 包括三个基本概念镜像（Image）容器（Container）仓库（Repository）先理解了这三个概念，就理解了 Docker 的整个生命周期。1、docker安装与启动 1 yum install -y epel-release 2 yum install docker-io # 安装docker 3 # 配置文件 /etc/s

2016-11-28 17:58:12 1546

转载 Docker快速安装部署

Docker是一个开源的容器引擎，可以轻松的为任何应用创建轻量级、可移植的、自给自足的容器。Docker容器可以批量在生产环境中部署，支持物理机、vm虚拟机、OpenStack等iaas层基础设施。 Docker通常应用于如下场景：web应用的自动化打包和部署；自动化测试和持续集成、部署应用系统微服务化改造通过mesos和kubernetes等框架做集成来搭建自己的Paas环境

2016-11-28 17:55:09 12945

转载 Docker到底是什么？

如果你是数据中心或云计算IT圈子的人，这一年多来应该一直在听到普通的容器、尤其是Docker，关于它们的新闻从未间断过。Docker1.0在今年6月发布后，声势更是达到了前所未有的程度。动静之所以这么大，就是因为许多公司在以惊人的速度采用Docker。在今年7月的开源大会（OSCon）上，我遇到了早已将服务器应用程序从虚拟机（VM）转移到容器的无数企业。的确，Docker

2016-11-28 17:14:08 1079

转载 HIVE安装

1 、下载Hive-0.11.0http://apache.cs.utah.edu/hive/hive-0.11.0/2、解压安装 Hive原则上可以安装在集群上的任何一台机器上面，但是考虑到 master节点的负荷比较大，我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择cloud003来安装hive。另外，在我

2016-11-24 14:59:45 946

转载 sqoop的安装与使用

以下操作就是使用sqoop在mysql和hdfs之间转换数据。1.安装我们使用的版本是sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz，打算安装在/usr/local目录下。首先就是解压缩，重命名为sqoop，然后在文件/etc/profile中设置环境变量SQOOP_HOME。把mysql的jdbc驱动mysql-connector-j

2016-11-24 14:33:41 2764

转载 Sqoop详细介绍包括：sqoop命令，原理，流程

一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。

2016-11-24 14:06:31 2950

转载 JobTracker和TaskTracker概述

一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：(1)概述：JobTracke

2016-11-24 11:41:30 2227

转载基于Flume的美团日志收集系统(二)改进和优化

问题导读：1.Flume的存在些什么问题？2.基于开源的Flume美团增加了哪些功能？3.Flume系统如何调优？在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构设计，以及为什么做这样的设计。在本节中，我们将会讲述在实际部署和使用过程中遇到的问题，对Flume的功能改进和对系统做的优化

2016-11-21 18:03:01 1118

转载基于Flume的美团日志收集系统(一)架构和设计

问题导读：1.Flume-NG与Scribe对比，Flume-NG的优势在什么地方？2.架构设计考虑需要考虑什么问题？3.Agent死机该如何解决？4.Collector死机是否会有影响？5.Flume-NG可靠性(reliability)方面做了哪些措施？美团的日志收集系统负责美团的所有业务日志的收集，并分别给Hadoop平台提供离线数据和Storm平

2016-11-21 18:00:44 1042

转载大数据流难以管理？借助StreamSets来驾驭

物联网数据有望发掘独特的、前所未有的业务洞察力，不过前提是企业能够成功地管理从众多物联网数据源流入的数据。许多企业试图从物联网项目获得价值，但经常遇到的一个问题是数据漂移(data drift)：源设备和数据处理基础设施经常发生不可预测的变化，因而导致数据的结构、内容或含义发生变化。无论流式处理还是批量处理，数据通常经由众多工具，从数据源进入到最后的存储位置。这条链上任何地方的变化都会导致

2016-11-21 17:50:48 3545

转载 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie？Oozie是一种Java Web应用程序，它运行在

2016-11-21 17:38:11 1009

转载 Apache Sentry架构介绍

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件，截止目前还是Apache的孵化项目，它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成，未来会扩展到其他的Hadoop组件，例如HDFS和HBase。特性Apache Sentry为H

2016-11-21 17:27:00 4156

转载 Kudu：一个为大数据快速分析量身定制的新型Apache Hadoop存储系统

Apache Hadoop提供了一系列数据存储与处理的组件，覆盖了多种多样、应用于企业级关键服务的用户案例。在Cloudera，我们一直在努力探索Hadoop的各种可能性，拓展Hadoop的边界——使得Hadoop更快、更好用、更安全。自2012年，我们开启了一个关于Apache Hadoop存储系统的验证工作(避免Hadoop被约束在部分特定用户案例中)。验证过程中，我们发现

2016-11-21 17:19:33 1814

我们知道storm的作用主要是进行流式计算，对于源源不断的均匀数据流流入处理是非常有效的，而现实生活中大部分场景并不是均匀的数据流，而是时而多时而少的数据流入，这种情况下显然用批量处理是不合适的，如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉，应对这种情况，使用kafka作为消息队列是非常合适的选择，kafka可以将不均匀的数据转换成均匀的消息流，从而和storm比较完善的结合，

2016-11-21 16:51:00 1009

转载都是HIVE数据倾斜惹的祸

症状和原因：操作：join,group by,count distinct 原因：key分布不均匀，人为的建表疏忽，业务数据特点。症状：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。倾斜度：平均记录数超过50w且最大记录数是超过

2016-11-08 17:46:50 667

转载 hive sql 优化

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合，相当于Combinerhive.groupby.skewindata=true

2016-11-08 15:58:28 613

ERWin操作手册

ERWin 手册

2014-10-13

JQuery 右下角弹提示框设置控制实例

2014-08-21

JQuery 在FrameSet页面右下角提示框实例

JQuery 右下角提示框 FrameSet，

2014-08-21

微信商城源码

2014-01-24

hadoop开发者二期

对于爬虫优化，分布式存储及运算优化，对集群架构一个深入完整的介绍

2013-12-30

Hadoop深度实战

一个完整的Hadoop 分布式集群及开发实例

2013-12-30

CodePro Analytix

代码质量，包括代码检查评审、 metric、设计模式、测试

2011-09-29

Oracle init.ora 配置详解

Oracle init.ora 配置详解 Oracle init.ora 配置详解 Oracle init.ora 配置详解

2011-08-16

Rational Rose 2003教程

Rational Rose 2003教程很不错的PPT教程

2011-07-27

Cognos SDK 开发实例应用

Cognos SDK 开发实例应用，很好的资源

2011-07-21

Cognos SDK api 2 JAR 包

Cognos SDK api jar 包第二部分

2011-07-21

Cognos SDK API包

Cognos集成API，供SDK集成开发应用

2011-07-21

Cognos 权限配置和管理总结

比较系统的介绍权限的控制管理，展示Cognos的权限配置过程

2011-07-21

Cognos SDK（权限开发小例子）

用户角色权限这部分主要可以实现 1. 第三方认证 2. 新建角色；新建组织；给角色添加用户、组织、角色；给组织添加用户、组织；读取当前角色(组织)已有的成员，给成员设置读写遍历等权限 3. 给Foler，package，rs，as，qs报表设置权限，比如山东小麦专家和山东大豆专家看到不同的文件夹报表等；这块和Cognos在页面上设置权限的功能一样；不过是通过SDK自己包装了，为了给大家有个直观的产品集成的概念J2EE架构+Cognos8.4环境下做了一个小功能demo，后面有效果图简单展示；

2011-07-21

WebService客户端

WebService客户端 WebService客户端 WebService客户端

2011-04-25

soapclient

soapclient soapclient soapclient

2011-04-25

axis-bin-1_4

WebService asdsfasdfasdfas

2011-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人