2017年07月_yanzhelee

原创《Hive编程指南》笔记一

《Hive编程指南》笔记一1、hive不支持行级插入操作、更新操作和删除操作。hive不支持事务。2、用户还可以为数据库增加一些相关的键-值对属性信息，create database testwith dbproperties('creator'='Mark','date'='2012-01-02');#通过下面语句查看描述信息describe database extended test;t

2017-07-26 11:43:31 1109

原创 hive桶表

hive中有桶的概念，对于每一个表或者分区来说，可以进一步组织成桶，其实就是更细粒度的数据范围。hive采用列值哈希，然后除以桶的个数以求余数的方式确定该条记录是存放在那个表中。公式：whichBucket = hash(columnValue) % numberOfBucketshive桶表最大限度的保证了每个桶中的文件中的数据量大致相同，不会造成数据倾斜。

2017-07-23 23:57:45 1466

原创 sqoop介绍与安装

sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据：将关系型结构化数据如MySQL，oracle数据导入到hadoop的hdfs、hive、hbase的数据存储系统。导出数据：从hadoop的文件系统中导出数据到关系型数据库。

2017-07-22 11:22:51 818

原创 sqoop数据导入导出应用案例

sqoop数据导入导出应用案例sqoop导入MySQL表中数据到HDFSsqoop导入MySQL表到hive表中sqoop导入MySQL表到hdfs指定的目录上sqoop导入where数据子集增量导入数据sqoop数据导出sqoop数据导入导出命令详解

2017-07-21 14:27:02 1758

转载 Azkaban四个应用案例

Azkaban四个应用案例Azkaba内置的任务类型支持command、java案例一（单个job）1 创建job描述文件#command.jobtype=command command=echo 'hello'2 将job资源文件打包成zip文件 3 通过azkaban的web管理平台创建p

2017-07-20 23:59:00 1835

原创 Azkaban安装部署

Azkaban安装部署Azkaban介绍Azkaban安装部署1 准备工作2 Azkaban web服务器安装3 Azkaban执行服务器安装4 导入Msql数据5 创建SSL配置6 配置文件azkaban web服务器配置azkaban 执行服务器配置用户配置启动1 web服务器2 执行服务器Azkaban安装部署1 Azkaban介绍Azkaban是由Linkedin

2017-07-20 23:09:21 1172

原创 flume应用案例

flume的使用非常简单，只需书写一个配置文件，在配置文件中描述source，channel和sink的具体实现，然后运行一个agent的实例，在运行agent实例的过程中会读取配置文件中的内容，这样flume就会采集数据了。

2017-07-19 23:28:35 885

转载 flume架构总结

flume架构总结介绍flume之前先看一下Hadoop业务的整体流程开发：从hadoop的业务流程图中可以看出，在大数据的业务逻辑处理过程中，对于数据的搜集是十分重要的一步，也是不可避免的一步，本文下面将对flume的架构进行详细的介绍。1.flume概念flume是一个分布式、可靠和高可用的海量日志聚合的系统，支持在系统中地址各类数据发送方，用于手机数据；同时，flume提供对数据进行简

2017-07-19 13:26:34 1536

原创 VIM常用编辑命令

VIM常用编辑命令

2017-07-17 21:45:25 884

原创 hive分区表

hive分区表假设有海量的数据保存在hdfs的某一个hive表明对应的目录下，使用hive进行操作的时候，往往会搜索这个目录下的所有文件，这有时会非常的耗时，如果我们知道这些数据的某些特征，可以事先对他们进行分裂，再把数据load到hdfs上的时候，他们就会被放到不同的目录下，然后使用hive进行操作的时候，就可以在where子句中对这些特征进行过滤。

2017-07-17 00:32:10 2738

原创 hive内部表与外部表

hive内部表与外部表hive的内部表与外部表之间的区别区别创建表过程删除表过程内部表会将数据移动到数据仓库指向的路径元数据和实际数据一起删除外部表仅记录数据所在的路径，不会对数据的位置坐任何改变只删除元数据，不删除实际数据，相对比较安全。传统数据库和hive之间的区别传统数据库对表的验证是schema on write（写时模式），而hive在

2017-07-16 22:08:27 1383

转载 CentOs7安装mysql

由于centos7对MySQL没有提供支持，所以要想在centos7上面安装MySQL是一件非常麻烦的事，很多linux初学者安装MySQL无从下手，所以本文详细介绍了在centos7上面如何安装MySQL。

2017-07-14 20:19:36 1299 1

原创多个MapReduce之间的嵌套

多个MapReduce之间的嵌套在很多实际工作中，单个MR不能满足逻辑需求，而是需要多个MR之间的相互嵌套。很多场景下，一个MR的输入依赖于另一个MR的输出。结合案例实现一下两个MR的嵌套。 Tip：如果只关心多个MR嵌套的实现，可以直接跳到下面《多个MR嵌套源码》章节查看案例描述根据log日志计算log中不同的IP地址数量是多少。测试数据如下图所示：该日志中每个字段都是用Tab建分割的。

2017-07-13 01:24:43 6393 2

原创 MapReduce模型初探（二）

MapReduce模型初探一MR执行流程二shuffle阶段1 shuffle中的分区Partition2 shuffle中的排序和分组3 shuffle中的CombinerShuffle阶段排序流程详解参考博文一、MR执行流程最简单过程：map –> reduce定制了Partitioner分区的过程：map–>partition–>

2017-07-11 01:09:49 912

原创 MapRedece中的分区Partitioner

MapRedece中的分区Partitioner分析MapReduce中会将map输出的k-v对，按照相同的key进行分组，然后分发给不同的reduceTask中。默认的分发规则为：根据key的hashcode%reducetask数来分发所以如果要按照特定的需求进行分组，则需要改写数据分发组件Partitioner。

2017-07-10 09:00:21 1136

原创 shell脚本定期上传日志到hdfs上

解决服务器定期上传日志到hdfs上闲话少说，直接上代码#!/bin/bash#设置java环境变量export JAVA_HOME=/soft/jdkexport JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH = ${JAVA_HOME}/bin:$PATH#设

2017-07-08 21:41:06 1408

yanzhelee