自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yanzhelee

大数据小菜

  • 博客(16)
  • 收藏
  • 关注

原创 《Hive编程指南》笔记一

《Hive编程指南》笔记一1、hive不支持行级插入操作、更新操作和删除操作。hive不支持事务。2、用户还可以为数据库增加一些相关的键-值对属性信息,create database testwith dbproperties('creator'='Mark','date'='2012-01-02');#通过下面语句查看描述信息describe database extended test;t

2017-07-26 11:43:31 1109

原创 hive桶表

hive中有桶的概念,对于每一个表或者分区来说,可以进一步组织成桶,其实就是更细粒度的数据范围。hive采用列值哈希,然后除以桶的个数以求余数的方式确定该条记录是存放在那个表中。公式:whichBucket = hash(columnValue) % numberOfBucketshive桶表最大限度的保证了每个桶中的文件中的数据量大致相同,不会造成数据倾斜。

2017-07-23 23:57:45 1466

原创 sqoop介绍与安装

sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据:将关系型结构化数据如MySQL,oracle数据导入到hadoop的hdfs、hive、hbase的数据存储系统。导出数据:从hadoop的文件系统中导出数据到关系型数据库。

2017-07-22 11:22:51 818

原创 sqoop数据导入导出应用案例

sqoop数据导入导出应用案例sqoop导入MySQL表中数据到HDFSsqoop导入MySQL表到hive表中sqoop导入MySQL表到hdfs指定的目录上sqoop导入where数据子集增量导入数据sqoop数据导出sqoop数据导入导出命令详解

2017-07-21 14:27:02 1758

转载 Azkaban四个应用案例

Azkaban四个应用案例Azkaba内置的任务类型支持command、java案例一(单个job)1 创建job描述文件#command.jobtype=command command=echo 'hello'2 将job资源文件打包成zip文件 3 通过azkaban的web管理平台创建p

2017-07-20 23:59:00 1835

原创 Azkaban安装部署

Azkaban安装部署Azkaban介绍Azkaban安装部署1 准备工作2 Azkaban web服务器安装3 Azkaban执行服务器安装4 导入Msql数据5 创建SSL配置6 配置文件azkaban web服务器配置azkaban 执行服务器配置用户配置启动1 web服务器2 执行服务器Azkaban安装部署1 Azkaban介绍Azkaban是由Linkedin

2017-07-20 23:09:21 1172

原创 flume应用案例

flume的使用非常简单,只需书写一个配置文件,在配置文件中描述source,channel和sink的具体实现,然后运行一个agent的实例,在运行agent实例的过程中会读取配置文件中的内容,这样flume就会采集数据了。

2017-07-19 23:28:35 885

转载 flume架构总结

flume架构总结介绍flume之前先看一下Hadoop业务的整体流程开发: 从hadoop的业务流程图中可以看出,在大数据的业务逻辑处理过程中,对于数据的搜集是十分重要的一步,也是不可避免的一步,本文下面将对flume的架构进行详细的介绍。1.flume概念flume是一个分布式、可靠和高可用的海量日志聚合的系统,支持在系统中地址各类数据发送方,用于手机数据;同时,flume提供对数据进行简

2017-07-19 13:26:34 1536

原创 VIM常用编辑命令

VIM常用编辑命令

2017-07-17 21:45:25 884

原创 hive分区表

hive分区表假设有海量的数据保存在hdfs的某一个hive表明对应的目录下,使用hive进行操作的时候,往往会搜索这个目录下的所有文件,这有时会非常的耗时,如果我们知道 这些数据的某些特征,可以事先对他们进行分裂,再把数据load到hdfs上的时候,他们就会被放到不同的目录下,然后使用hive进行操作的时候,就可以在where子句中对这些特征进行过滤。

2017-07-17 00:32:10 2738

原创 hive内部表与外部表

hive内部表与外部表hive的内部表与外部表之间的区别 区别 创建表过程 删除表过程 内部表 会将数据移动到数据仓库指向的路径 元数据和实际数据一起删除 外部表 仅记录数据所在的路径,不会对数据的位置坐任何改变 只删除元数据,不删除实际数据,相对比较安全。传统数据库和hive之间的区别传统数据库对表的验证是schema on write(写时模式),而hive在

2017-07-16 22:08:27 1383

转载 CentOs7安装mysql

由于centos7对MySQL没有提供支持,所以要想在centos7上面安装MySQL是一件非常麻烦的事,很多linux初学者安装MySQL无从下手,所以本文详细介绍了在centos7上面如何安装MySQL。

2017-07-14 20:19:36 1299 1

原创 多个MapReduce之间的嵌套

多个MapReduce之间的嵌套在很多实际工作中,单个MR不能满足逻辑需求,而是需要多个MR之间的相互嵌套。很多场景下,一个MR的输入依赖于另一个MR的输出。结合案例实现一下两个MR的嵌套。 Tip:如果只关心多个MR嵌套的实现,可以直接跳到下面《多个MR嵌套源码》章节查看案例描述根据log日志计算log中不同的IP地址数量是多少。测试数据如下图所示: 该日志中每个字段都是用Tab建分割的。

2017-07-13 01:24:43 6393 2

原创 MapReduce模型初探(二)

MapReduce模型初探一MR执行流程二shuffle阶段1 shuffle中的分区Partition2 shuffle中的排序和分组3 shuffle中的CombinerShuffle阶段排序流程详解参考博文一、MR执行流程最简单过程:map –> reduce定制了Partitioner分区的过程:map–>partition–>

2017-07-11 01:09:49 912

原创 MapRedece中的分区Partitioner

MapRedece中的分区Partitioner分析MapReduce中会将map输出的k-v对,按照相同的key进行分组,然后分发给不同的reduceTask中。 默认的分发规则为:根据key的hashcode%reducetask数来分发 所以如果要按照特定的需求进行分组,则需要改写数据分发组件Partitioner。

2017-07-10 09:00:21 1136

原创 shell脚本定期上传日志到hdfs上

解决服务器定期上传日志到hdfs上闲话少说,直接上代码#!/bin/bash#设置java环境变量export JAVA_HOME=/soft/jdkexport JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH = ${JAVA_HOME}/bin:$PATH#设

2017-07-08 21:41:06 1408

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除