自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(44)
  • 收藏
  • 关注

转载 hive join的一个小问题

hive join的一个小问题 最近在看公司代码发现一个和join相关的奇怪的写法 抽象一下表结构如下 为了简化问题,这里就用这张示例表演示 写法一 写法二 写法一 明细是想要缩小join表的范围,减少关联的数据,但是其实写法一和写法二的效果是一样的,问题的本质是用...

2019-08-21 18:05:00 242

转载 spark join和union+reducebykey 对比

spark join和union+reducebykey 对比 对于某些聚合需求可以用union+reducebykey的方式替换join,join将会做两个表的连接操作比较消耗新能,union+reducebykey,可以在map的端进行预聚合,然后再reduce阶段再次聚合,涉及到的s...

2019-08-20 11:19:00 1076

转载 Linux 常用命令

Linux 常用命令 文件表达式 -e filename 如果 filename存在,则为真 -d filename 如果 filename为目录,则为真 -f filename 如果 filename为常规文件,则为真 -L filename 如果 filename为符号链接,则为真 ...

2019-08-20 10:52:00 381

转载 电信行业常用术语和概念

电信行业常用术语和概念 信令数据:终端机与通讯网络交互的数据 LAC:移动通讯系统中的位置区码,为寻呼而设置的一个区域,覆盖一片地理区域,一个位置区可以包含一个或多个小区(CI) CI:小区识别码,为了唯一地表示GSMPLMN中的每个小区 IMSI:国际移动用户识别码 一...

2019-08-13 11:26:00 1414

转载 flink 多流join 触发时机详解

flink 多流join 触发时机详解 flink多流join代码很简单,但是对于初学者可能会遇到window窗口计算不能触发的"假象",这往往是由于对flink window eventtime processtime理解不到位引起的,以下示例将详述join在不同时间下的触发过程...

2019-08-02 15:21:00 4987

转载 hadoop 命名空间的维护机制

hadoop 1.xsecondarynamenode合并edits 和 fsimage 流程 如何触发secondaryNameNode合并edits 和 fsimage fs.checkpoint.period:3600s 默认一小时触发一次(core-site....

2019-06-11 14:37:00 262

转载 sql 中 where和join 生成中间表问题

sql 中 where和join 生成中间表问题 数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户 join on 的情况,以left join on 为例,它不管on的条件是否为真,都会把左表中全部记录返回到中间表里面,...

2019-03-15 16:53:00 1656

转载 hadoop fsimage文件解析

hadoop fsimage文件解析 使用hdfs 命令解码fsimage文件 必须参数: -i,–inputFile<arg> 输入FSImage文件. -o,–outputFile<arg> 输出转换后的文件,如果存在,则会覆盖 ...

2019-02-11 15:53:00 1462

转载 spark为什么比MapReduce快

spark为什么比MapReduce快 spark task启动时间快,因为spark采用fork线程的方式,而Hadoop每次都创建新的进程 spark只有在shuffle的时候才将数据写入磁盘,Hadoop MapReduce多个mp作业之间交换数据也依赖于磁盘,如果M...

2018-12-03 15:16:00 171

转载 hive 自定义聚合函数 UDAF

hive 自定义聚合函数 UDAF hive的 udaf 是自定义聚合函数 配合group by 使用,接受0行到多行数据 返回一个计算结果值,定义静态内部类 实现UDAFEvaluator的方法 包括入下 init() 初始化 一般负责初始化内部字段,通常初始化用来存放最终结果的...

2018-12-03 14:14:00 318

转载 hive join,outer join, semi join详解

hive join,outer join, semi join详解 join 最简单 两个表取交集 left outer join是以左表驱动,右表不存在的key均赋值为null right outer join是以右表驱动,左表不存在的key均赋值为null 此外hi...

2018-11-13 20:53:00 262

转载 hdfs及MapReduce相关文章

hdfs及MapReduce相关文章 hdfs 文件存储格式https://my.oschina.net/u/2969788/blog/2875351 hdfs 块(block) 大小的影响https://my.oschina.net/u/2969788/blog/2873...

2018-11-13 18:24:00 79

转载 spark相关文章

spark相关文章 spark 重新分区 repartition和coalescehttps://my.oschina.net/u/2969788/blog/2875636 spark的宽依赖和窄依赖https://my.oschina.net/u/2969788/blog...

2018-11-13 18:22:00 59

转载 hive相关文章

hive相关文章 hive存储格式和表类型,分区分桶https://my.oschina.net/u/2969788/blog/1615049 Hive中order by,sort by,distribute by,cluster by的区别https://my.oschina...

2018-11-13 18:17:00 129

转载 数据仓库理论相关文章

数据仓库理论相关文章 数据仓库的设计https://my.oschina.net/u/2969788/blog/1611973 OLTP和OLAP 在线事务处理和在线分析处理https://my.oschina.net/u/2969788/blog/2875200 数据...

2018-11-13 18:13:00 73

转载 spark 重新分区 repartition和coalesce

spark 重新分区 repartition和coalesce spark 重新分区的优势 对于给定RDD只需要扫描一次的情况 重新分区没有任何好处 类似于 join() groupbykey() reducebykey() 这样的操作都会受益 reparation是co...

2018-11-13 17:38:00 107

转载 hive中order by ,sort by ,distribute by,cluster by的区别

Hive中order by,sort by,distribute by,cluster by的区别 order by 会对数据进行全局排序 只有一个reduce 保证全局有序,数据规模比较大的时候回耗费很多时间 sort by 在数据进入reduce之前完成排序,可以保证局部有序...

2018-11-13 15:46:00 94

转载 hive 分析函数及用法

hive 分析函数及用法 hive 常用于olap(On-Line Analytical Processin 在线分析处理)领域,如下,分析函数不同于聚合函数,聚合函数会返回一个值但是分析函数会返回一个数据集,通过配合可以对数据集进行分析 分区排序 动态group by 求...

2018-11-13 14:32:00 104

转载 算法总结

算法总计 聚类 定义:对应给定集合D,其中每个元素有n个可观察属性,使用某种算法将其分为k个子集,其中每个子集内部元素之间相似度尽可能高,不同子集内部元素相异度尽可能高的过程叫做聚类,每个子集叫做一个族 聚类的算法包括 k-means 分类和回归 定义:对于给定集合D,其中...

2018-11-13 11:39:00 62

转载 hdfs文件存储格式

hdfs 文件存储格式 hdfs 文件存储格式分为两大类 行存储和列存储 行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中 列存储 列存储会把文件切割成若干列,每一列存储在一起,是需要...

2018-11-13 10:36:00 4590

转载 OLTP和OLAP 在线事务处理和在线分析处理

oltp和olap oltp和olap是两种常见的业务模式, oltp(on line transcation processing) 在线事务处理 它具有以下特点,常见的系统如银行财务 实时性要求高 数据量相对较小 要求绝对的事务完整性,增删改查操作一般都会涉及 并...

2018-11-12 19:55:00 1372

转载 hive 数据倾斜

hive数据倾斜 参考https://blog.csdn.net/s646575997/article/details/51510661 引起数据倾斜的操作 join 一个表较小,但是key集中,分配到某一个reduce或者几个reduce上的数据远远高于平均值 join ...

2018-11-08 19:40:00 35

转载 hdfs 块(block) 大小的影响

hdfs 块(block) 大小的影响 hdfs 会将文件划分为块(block),进行存储,每个块默认会备份成三份存储在不同的DataNode节点上,一般情况下块的默认大小是 64MB或者128MB,这样做的好处是 减少磁盘寻址时间 减少NameNode记录block和Data...

2018-11-08 17:09:00 1328

转载 spark的宽依赖和窄依赖

spark的宽依赖和窄依赖 spark 划分stage取决于rdd之间的依赖,rdd之间的依赖分为宽依赖和窄依赖 窄依赖是指 父rdd的一个分区指被子rdd的一个分区使用,参考下图,父rdd只会被一个子rdd使用 宽依赖父rdd的每一个分区都有可能被子rdd的分区使用,子rdd的...

2018-11-05 19:05:00 91

转载 spark 基本原理及概念

spark原理和概念 spark 运行架构 spark的节点分为 driver(驱动节点)和executor(执行节点),基于yarn来提交spark job分为两种模式client和cluster,两种模式去区别在于 client模式将会把driver程序运行在执行spark-sub...

2018-11-01 18:05:00 143

转载 Hbase 学习笔记

hbase 学习笔记 hbase表结构 hbase是一个非关系型的数据库 面向列存储数据 表是行的集合 行是列族的集合 列族是列的集合 列是键值的集合 实例 hbase 基本概念 Column Family又叫列族,Hbase...

2018-08-03 11:25:00 88

转载 spark streaming 程序学习笔记

spark streaming 学习笔记 StreamingContext: spark streaming 程序必须创建 StreamingContext对象,她是流处理操作的主入口, new StreamingContext(sparkContext, Seconds(durat...

2018-07-11 17:01:00 93

转载 Nginx 反向代理配置笔记 最精简配置

Nginx 反向代理配置笔记 Nginx是一款非常优秀的软件,在此向伊戈尔·赛索耶夫大神致敬, 本篇配置实现以下功能 负载均衡 支持websocket协议的代理 解决内外网端口号不一致带来的问题 配置文件nginx.conf 详解见注释 #user n...

2018-03-08 10:51:00 76

转载 hive sql 常用函数

hive常用函数 COALESCE(T v1, T v2,…), 返回参数中第一个非null值 ,如果全是null 返回null hive sql 创建数据库 create database if not exists testdb comment '这是一个描述'...

2018-02-22 14:55:00 197

转载 hive sql转换为MapReduce过程

hive sql 转换为 MapReduce过程 antlr 定义sql语法规则,完成sql词法,语法解析,将sql转换为抽象语法树AST tree 遍历 AST tree,抽象出查询的基本单元查询块queryBlock 遍历 queryBlock,翻译成执行操作树 ope...

2018-02-22 14:36:00 568

转载 Oozie笔记

Oozie 笔记 概要 Oozie是一个工作流引擎,每个任务可以是MapReduce作业或者pig作业 Oozie运行在 java servlet容器中 Oozie 按照 DAG(有向无环图)调度一系列任务 Oozie工作流由 HPDL(Hadoop process ...

2018-01-30 11:26:00 72

转载 hive存储格式和表类型,分区分桶

存储格式 textfile: 默认格式.存储为行存储 ORCfile:按照行分块,按照列存储,特点数据压缩比非常高 Parquet:具有较好的压缩比,方便 MapReduce计算 parquet 和 ORC 对比 表类型 内部表:一般的表 ,删除表数据...

2018-01-29 16:35:00 407

转载 数据仓库的设计

数据仓库设计 前言 数据仓库一般针对 olap(在线分析处理)的业务,olap和oltp参考https://my.oschina.net/u/2969788/blog/2875200,重点用于处理大规模数据集的分析工作,通常的操作只有添加和查询,不会涉及到严格事务要求和实时的并发操...

2018-01-23 17:51:00 117

转载 java web项目开发流程

需求->原型->接口/表设计 ----------------------------------产品经理介入------------------------------- 1:产品经理分析客户(市场)需求,整理需求,产出物->产品原型 2:整理业务逻辑流程...

2017-12-03 11:20:00 99

转载 spark 数据倾斜问题

spark数据倾斜问题 数据倾斜问题的描述 在Spark中,同一个Stage的不同Partition可以并行处理,而具有依赖关系的不同Stage之间是串行处理的。假设某个Spark Job分为Stage 0和Stage 1两个Stage,且Stage 1依赖于Stage 0,那Stag...

2017-04-21 17:29:00 86

转载 基于 webmagic 爬取 网页数据

概述: webmagic是一个开源的java语言爬虫框架,参考官网http://webmagic.io/, 本篇博客介绍爬取 码云的"最新推荐",网址:https://git.oschina.net/explore/recommend 代码 packa...

2017-04-14 17:24:00 107

转载 mapreduce执行过程概述

MapReduce框架 Mapreduce初析 Mapreduce是一个计算框架,输入<k,v>类型的值得到一个计算之后的<k,v>类型的值,重点在于它是分布式运行的,也就是说计算的第一阶段Map会在多个不同节点上同时执行一套计算逻辑,之后再通过combiner...

2017-04-07 11:25:00 403

转载 hive 表类型和基本表操作

概要: hive是一个基于 hdfs的数据仓库,会将 hsq(类似于sql)的语句转换成 mapreduce 执行,如果配置了 其他计算引擎比如spark(hive on spark),那么会转换成其他的 来执行, hive数据类型 基本数据类型 tinyint,...

2017-04-01 10:54:00 196

转载 hdfs 原理

概述: Hadoop Distributed File System(HDFS):是一个高吞吐量的分布式文件系统.是分布式计算的基础 基本概念: NameNode (元数据节点):存储元数据信息,包括fsimage(命名空间镜像映像),edits_log(操作日志),Na...

2017-03-28 17:59:00 110

转载 zookeeper 简析

写在前面: zookeeper 是为分布式应用程序提供高性能协调服务的一个开源项目,zookeeper本身也是一个分布式的应用,所有的zookeeper节点共同维护着一个与标准文件系统类似的共享分层命名空间以及持久化在磁盘的事务日志和快照,"命名空间"类似于Linux目录结构...

2017-03-27 18:23:00 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除