孙张宾-CSDN博客

原创 Hive查询总结

先看下官网的查询语法：[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WH

2017-01-03 19:14:34 1502

原创 Hive动态分区

把数据insert或者load进指定的表分区，这个分区需要时已经存在的，如果想让hive表自动生成分区时，需要配置开启动态分区，配置如下：SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions.pernod

2017-01-03 17:26:59 1243

原创 Hive窗口函数总结

基础的：SUM,AVG,MIN,MAX NTILE(n)，用于将分组数据按照顺序切分成n片，返回当前切片值 ROW_NUMBER() –从1开始，按照顺序，生成分组内记录的序列 RANK() 生成数据项在分组中的排名，排名相等会在名次中留下空位 DENSE_RANK() 生成数据项在分组中的排名，排名相等会在名次中不会留下空位 CUME_DIST 小于等于当前值的行数/分组内总行数 PE

2017-01-03 16:57:32 772

原创 spark学习视频

Spark视频免费下载Spark部署http://pan.baidu.com/s/1bnCpUEz提取码：3npwSpark编程模型http://pan.baidu.com/s/1o6Htm3o提取码：jc64Spark运行架构http://pan.baidu.com/s/1pJC72ob提取码：edgbSpark SQL原理和实践http://pan.baidu.com/s/1bn

2016-12-29 18:28:05 1563

原创 Yarn多用户资源管理–Fair Scheduler介绍与配置

在一个公司内部的Hadoop Yarn集群，肯定会被多个业务、多个用户同时使用，共享Yarn的资源，如果不做资源的管理与规划，那么整个Yarn的资源很容易被某一个用户提交的Application占满，其它任务只能等待，这种当然很不合理，我们希望每个业务都有属于自己的特定资源来运行MapReduce任务，Hadoop中提供的公平调度器–Fair Scheduler，就可以满足这种需求。Fair Sch

2016-12-20 17:55:18 6562

原创 Yarn新的资源调度策略-label based scheduling

什么是Label based scheduling？故名思议，Label based scheduling是一种调度策略，就像priority-based scheduling一样，是调度器调度众多调度策略中的一种，可以跟其他调度策略混合使用，实际上，hadoop也是这样做的。但是，相比于其他调度策略，基于标签的调度策略则复杂的多，这个feature的代码量非常大，基本上需要修改YARN的各个模块

2016-12-20 17:27:25 1171

原创 HDFS存储原理

整理下漫画，非常适合初学者理解角色出演如上图所示，HDFS存储相关角色与功能如下：Client：客户端，系统使用者，调用HDFS API操作文件；与NN交互获取文件元数据；与DN交互进行数据读写。Namenode：元数据节点，是系统唯一的管理者。负责元数据的管理；与client交互进行提供元数据查询；分配数据存储节点等。Datanode：数据存储节点，负责数据块的存储与冗余备份；执行数据块的

2016-12-16 19:31:40 1114

原创时序数据监控系统Influxdb+Grafana+Fluented

时序数据：即时间序列数据，带时间标签的数据，主要由电力行业、化工行业等各类型实时监测、检查与分析设备所采集、产生的数据，这些工业数据的典型特点是：产生频率快（每一个监测点一秒钟内可产生多条数据）、严重依赖于采集时间（每一条数据均要求对应唯一的时间）、测点多信息量大（常规的实时监测系统均有成千上万的监测点，监测点每秒钟都产生数据，每天产生几十GB的数据量）。比如，带有时间标签的访问nginx的h

2016-12-03 22:17:13 5345

原创 Hive join on的不等条件实现方法

hql的join on操作只支持相等条件，比如：select * from a join b on a.id=b.id;但是不支持相等条件以外的情况，比如：select * from a join b on a.id <> b.id;select * from a join b on a.name like '%'+b.name+'%';这是因为Hive很难把不等条件翻译成mapreduce jo

2016-12-02 22:31:09 30827 2

原创 mapreduce之分区，分组，排序，二次排序的综合应用

我们还是看下这个图，mapper处理后的中间数据经过shuffle阶段再由reducer处理。在shuffle阶段会进行分区，分组，排序，二次排序。这是个比较复杂的过程，但是我们理解以下这些东西对于工作中常见业务的开发就够用了：分区就是mapper数据处理完分成若干个partition交给reducer处理，也是利用多个reducer task并发处理来提高效率，但有些业务比如要求得出数据的全局

2016-11-25 23:24:04 1641

原创 mapreduce之mapper、reducer个数

这个图大概可以描述mapreduce计算模型的执行过程，下面我们就围绕这个图聊几个问题，其中有工作中非常有用的问题：1. mapper的个数结论：mapper的个数是由输入数据的大小决定的，一般不需要我们去设置，如果你想控制mapper的个数，那么需要先了解hadoop是怎么控制mapper的个数。如图所示，每个Mapper Tasker对应一个split（切片）,要处理的fil

2016-11-25 23:19:44 9072 3

孙张宾博客