孙张宾
码龄9年
关注
提问 私信
  • 博客:59,639
    59,639
    总访问量
  • 11
    原创
  • 1,428,199
    排名
  • 10
    粉丝
  • 0
    铁粉

个人简介:持续进步

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-08-10
博客简介:

孙张宾博客

博客描述:
技术研发类
查看详细资料
个人成就
  • 获得26次点赞
  • 内容获得5次评论
  • 获得42次收藏
创作历程
  • 3篇
    2017年
  • 8篇
    2016年
成就勋章
TA的专栏
  • hadoop
    7篇
  • 数据监控
    1篇
  • spark
    1篇
  • hive
    4篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive查询总结

先看下官网的查询语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WH
原创
发布博客 2017.01.03 ·
1344 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

Hive动态分区

把数据insert或者load进指定的表分区,这个分区需要时已经存在的,如果想让hive表自动生成分区时,需要配置开启动态分区,配置如下:SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions.pernod
原创
发布博客 2017.01.03 ·
1182 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive窗口函数总结

基础的:SUM,AVG,MIN,MAX NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值 ROW_NUMBER() –从1开始,按照顺序,生成分组内记录的序列 RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位 DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位 CUME_DIST 小于等于当前值的行数/分组内总行数 PE
原创
发布博客 2017.01.03 ·
689 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark学习视频

Spark视频免费下载Spark部署http://pan.baidu.com/s/1bnCpUEz提取码:3npwSpark编程模型http://pan.baidu.com/s/1o6Htm3o提取码:jc64Spark运行架构http://pan.baidu.com/s/1pJC72ob提取码:edgbSpark SQL原理和实践http://pan.baidu.com/s/1bn
原创
发布博客 2016.12.29 ·
1498 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

Yarn多用户资源管理–Fair Scheduler介绍与配置

在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等待,这种当然很不合理,我们希望每个业务都有属于自己的特定资源来运行MapReduce任务,Hadoop中提供的公平调度器–Fair Scheduler,就可以满足这种需求。Fair Sch
原创
发布博客 2016.12.20 ·
6457 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

Yarn新的资源调度策略-label based scheduling

什么是Label based scheduling?故名思议,Label based scheduling是一种调度策略,就像priority-based scheduling一样,是调度器调度众多调度策略中的一种,可以跟其他调度策略混合使用,实际上,hadoop也是这样做的。但是,相比于其他调度策 略,基于标签的调度策略则复杂的多,这个feature的代码量非常大,基本上需要修改YARN的各个模块
原创
发布博客 2016.12.20 ·
1100 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS存储原理

整理下漫画,非常适合初学者理解角色出演 如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的
原创
发布博客 2016.12.16 ·
1065 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

时序数据监控系统Influxdb+Grafana+Fluented

时序数据: 即时间序列数据,带时间标签的数据,主要由电力行业、化工行业等各类型实时监测、检查与分析设备所采集、产生的数据,这些工业数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数据)、严重依赖于采集时间(每一条数据均要求对应唯一的时间)、测点多信息量大(常规的实时监测系统均有成千上万的监测点,监测点每秒钟都产生数据,每天产生几十GB的数据量)。 比如,带有时间标签的访问nginx的h
原创
发布博客 2016.12.03 ·
5234 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Hive join on的不等条件实现方法

hql的join on操作只支持相等条件,比如:select * from a join b on a.id=b.id;但是不支持相等条件以外的情况,比如:select * from a join b on a.id <> b.id;select * from a join b on a.name like '%'+b.name+'%';这是因为Hive很难把不等条件翻译成mapreduce jo
原创
发布博客 2016.12.02 ·
30477 阅读 ·
7 点赞 ·
2 评论 ·
21 收藏

mapreduce之分区,分组,排序,二次排序的综合应用

我们还是看下这个图,mapper处理后的中间数据经过shuffle阶段再由reducer处理。在shuffle阶段会进行分区,分组,排序,二次排序。这是个比较复杂的过程,但是我们理解以下这些东西对于工作中常见业务的开发就够用了:分区 就是mapper数据处理完分成若干个partition交给reducer处理,也是利用多个reducer task并发处理来提高效率,但有些业务比如要求得出数据的全局
原创
发布博客 2016.11.25 ·
1575 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

mapreduce之mapper、reducer个数

这个图大概可以描述mapreduce计算模型的执行过程,下面我们就围绕这个图聊几个问题,其中有工作中非常有用的问题:1. mapper的个数 结论:mapper的个数是由输入数据的大小决定的,一般不需要我们去设置,如果你想控制mapper的个数,那么需要先了解hadoop是怎么控制mapper的个数。 如图所示,每个Mapper Tasker对应一个split(切片),要处理的fil
原创
发布博客 2016.11.25 ·
8905 阅读 ·
7 点赞 ·
3 评论 ·
12 收藏

FreeMarker

发布资源 2015.08.10 ·
docx