chuya1943-CSDN博客

转载 hive join的一个小问题

hive join的一个小问题最近在看公司代码发现一个和join相关的奇怪的写法抽象一下表结构如下为了简化问题,这里就用这张示例表演示写法一写法二写法一明细是想要缩小join表的范围,减少关联的数据,但是其实写法一和写法二的效果是一样的,问题的本质是用...

2019-08-21 18:05:00 290

转载 spark join和union+reducebykey 对比

spark join和union+reducebykey 对比对于某些聚合需求可以用union+reducebykey的方式替换join,join将会做两个表的连接操作比较消耗新能,union+reducebykey,可以在map的端进行预聚合,然后再reduce阶段再次聚合,涉及到的s...

2019-08-20 11:19:00 1144

转载 Linux 常用命令

Linux 常用命令文件表达式 -e filename 如果 filename存在，则为真 -d filename 如果 filename为目录，则为真 -f filename 如果 filename为常规文件，则为真 -L filename 如果 filename为符号链接，则为真 ...

2019-08-20 10:52:00 450

转载电信行业常用术语和概念

电信行业常用术语和概念信令数据:终端机与通讯网络交互的数据 LAC:移动通讯系统中的位置区码,为寻呼而设置的一个区域，覆盖一片地理区域,一个位置区可以包含一个或多个小区(CI) CI:小区识别码,为了唯一地表示GSMPLMN中的每个小区 IMSI:国际移动用户识别码一...

2019-08-13 11:26:00 1653

转载 flink 多流join 触发时机详解

flink 多流join 触发时机详解 flink多流join代码很简单,但是对于初学者可能会遇到window窗口计算不能触发的"假象",这往往是由于对flink window eventtime processtime理解不到位引起的,以下示例将详述join在不同时间下的触发过程...

2019-08-02 15:21:00 5070

转载 hadoop 命名空间的维护机制

hadoop 1.xsecondarynamenode合并edits 和 fsimage 流程如何触发secondaryNameNode合并edits 和 fsimage fs.checkpoint.period:3600s 默认一小时触发一次(core-site....

2019-06-11 14:37:00 307

转载 sql 中 where和join 生成中间表问题

sql 中 where和join 生成中间表问题数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户 join on 的情况,以left join on 为例,它不管on的条件是否为真,都会把左表中全部记录返回到中间表里面,...

2019-03-15 16:53:00 1763

转载 hadoop fsimage文件解析

hadoop fsimage文件解析使用hdfs 命令解码fsimage文件必须参数： -i,–inputFile<arg> 输入FSImage文件. -o,–outputFile<arg> 输出转换后的文件，如果存在，则会覆盖 ...

2019-02-11 15:53:00 1526

转载 spark为什么比MapReduce快

spark为什么比MapReduce快 spark task启动时间快,因为spark采用fork线程的方式,而Hadoop每次都创建新的进程 spark只有在shuffle的时候才将数据写入磁盘,Hadoop MapReduce多个mp作业之间交换数据也依赖于磁盘,如果M...

2018-12-03 15:16:00 195

转载 hive 自定义聚合函数 UDAF

hive 自定义聚合函数 UDAF hive的 udaf 是自定义聚合函数配合group by 使用,接受0行到多行数据返回一个计算结果值,定义静态内部类实现UDAFEvaluator的方法包括入下 init() 初始化一般负责初始化内部字段,通常初始化用来存放最终结果的...

2018-12-03 14:14:00 359

转载 hive join,outer join, semi join详解

hive join,outer join, semi join详解 join 最简单两个表取交集 left outer join是以左表驱动，右表不存在的key均赋值为null right outer join是以右表驱动，左表不存在的key均赋值为null 此外hi...

2018-11-13 20:53:00 318

转载 hdfs及MapReduce相关文章

hdfs及MapReduce相关文章 hdfs 文件存储格式https://my.oschina.net/u/2969788/blog/2875351 hdfs 块(block) 大小的影响https://my.oschina.net/u/2969788/blog/2873...

2018-11-13 18:24:00 103

转载 spark相关文章

spark相关文章 spark 重新分区 repartition和coalescehttps://my.oschina.net/u/2969788/blog/2875636 spark的宽依赖和窄依赖https://my.oschina.net/u/2969788/blog...

2018-11-13 18:22:00 77

转载 hive相关文章

hive相关文章 hive存储格式和表类型,分区分桶https://my.oschina.net/u/2969788/blog/1615049 Hive中order by，sort by，distribute by，cluster by的区别https://my.oschina...

2018-11-13 18:17:00 170

转载数据仓库理论相关文章

数据仓库理论相关文章数据仓库的设计https://my.oschina.net/u/2969788/blog/1611973 OLTP和OLAP 在线事务处理和在线分析处理https://my.oschina.net/u/2969788/blog/2875200 数据...

2018-11-13 18:13:00 103

转载 spark 重新分区 repartition和coalesce

spark 重新分区 repartition和coalesce spark 重新分区的优势对于给定RDD只需要扫描一次的情况重新分区没有任何好处类似于 join() groupbykey() reducebykey() 这样的操作都会受益 reparation是co...

2018-11-13 17:38:00 144

转载 hive中order by ,sort by ,distribute by,cluster by的区别

Hive中order by，sort by，distribute by，cluster by的区别 order by 会对数据进行全局排序只有一个reduce 保证全局有序,数据规模比较大的时候回耗费很多时间 sort by 在数据进入reduce之前完成排序,可以保证局部有序...

2018-11-13 15:46:00 132

转载 hive 分析函数及用法

hive 分析函数及用法 hive 常用于olap(On-Line Analytical Processin 在线分析处理)领域,如下,分析函数不同于聚合函数,聚合函数会返回一个值但是分析函数会返回一个数据集,通过配合可以对数据集进行分析分区排序动态group by 求...

2018-11-13 14:32:00 138

转载算法总结

算法总计聚类定义:对应给定集合D,其中每个元素有n个可观察属性,使用某种算法将其分为k个子集,其中每个子集内部元素之间相似度尽可能高,不同子集内部元素相异度尽可能高的过程叫做聚类,每个子集叫做一个族聚类的算法包括 k-means 分类和回归定义:对于给定集合D,其中...

2018-11-13 11:39:00 88

转载 hdfs文件存储格式

hdfs 文件存储格式 hdfs 文件存储格式分为两大类行存储和列存储行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中列存储列存储会把文件切割成若干列,每一列存储在一起,是需要...

2018-11-13 10:36:00 4723

转载 OLTP和OLAP 在线事务处理和在线分析处理

oltp和olap oltp和olap是两种常见的业务模式, oltp(on line transcation processing) 在线事务处理它具有以下特点,常见的系统如银行财务实时性要求高数据量相对较小要求绝对的事务完整性,增删改查操作一般都会涉及并...

2018-11-12 19:55:00 1529

转载 hive 数据倾斜

hive数据倾斜参考https://blog.csdn.net/s646575997/article/details/51510661 引起数据倾斜的操作 join 一个表较小,但是key集中,分配到某一个reduce或者几个reduce上的数据远远高于平均值 join ...

2018-11-08 19:40:00 50

转载 hdfs 块(block) 大小的影响

hdfs 块(block) 大小的影响 hdfs 会将文件划分为块(block),进行存储,每个块默认会备份成三份存储在不同的DataNode节点上,一般情况下块的默认大小是 64MB或者128MB,这样做的好处是减少磁盘寻址时间减少NameNode记录block和Data...

2018-11-08 17:09:00 1452

转载 spark的宽依赖和窄依赖

spark的宽依赖和窄依赖 spark 划分stage取决于rdd之间的依赖,rdd之间的依赖分为宽依赖和窄依赖窄依赖是指父rdd的一个分区指被子rdd的一个分区使用,参考下图,父rdd只会被一个子rdd使用宽依赖父rdd的每一个分区都有可能被子rdd的分区使用,子rdd的...

2018-11-05 19:05:00 103

转载 spark 基本原理及概念

spark原理和概念 spark 运行架构 spark的节点分为 driver(驱动节点)和executor(执行节点),基于yarn来提交spark job分为两种模式client和cluster,两种模式去区别在于 client模式将会把driver程序运行在执行spark-sub...

2018-11-01 18:05:00 175

转载 Hbase 学习笔记

hbase 学习笔记 hbase表结构 hbase是一个非关系型的数据库面向列存储数据表是行的集合行是列族的集合列族是列的集合列是键值的集合实例 hbase 基本概念 Column Family又叫列族，Hbase...

2018-08-03 11:25:00 99

转载 spark streaming 程序学习笔记

spark streaming 学习笔记 StreamingContext: spark streaming 程序必须创建 StreamingContext对象,她是流处理操作的主入口, new StreamingContext(sparkContext, Seconds(durat...

2018-07-11 17:01:00 114

转载 Nginx 反向代理配置笔记最精简配置

Nginx 反向代理配置笔记 Nginx是一款非常优秀的软件,在此向伊戈尔·赛索耶夫大神致敬, 本篇配置实现以下功能负载均衡支持websocket协议的代理解决内外网端口号不一致带来的问题配置文件nginx.conf 详解见注释 #user n...

2018-03-08 10:51:00 103

转载 hive sql 常用函数

hive常用函数 COALESCE(T v1, T v2,…), 返回参数中第一个非null值 ,如果全是null 返回null hive sql 创建数据库 create database if not exists testdb comment '这是一个描述'...

2018-02-22 14:55:00 252

转载 hive sql转换为MapReduce过程

hive sql 转换为 MapReduce过程 antlr 定义sql语法规则,完成sql词法,语法解析,将sql转换为抽象语法树AST tree 遍历 AST tree,抽象出查询的基本单元查询块queryBlock 遍历 queryBlock,翻译成执行操作树 ope...

2018-02-22 14:36:00 634

转载 Oozie笔记

Oozie 笔记概要 Oozie是一个工作流引擎,每个任务可以是MapReduce作业或者pig作业 Oozie运行在 java servlet容器中 Oozie 按照 DAG(有向无环图)调度一系列任务 Oozie工作流由 HPDL(Hadoop process ...

2018-01-30 11:26:00 83

转载 hive存储格式和表类型,分区分桶

存储格式 textfile: 默认格式.存储为行存储 ORCfile:按照行分块,按照列存储,特点数据压缩比非常高 Parquet:具有较好的压缩比,方便 MapReduce计算 parquet 和 ORC 对比表类型内部表:一般的表 ,删除表数据...

2018-01-29 16:35:00 452

转载数据仓库的设计

数据仓库设计前言数据仓库一般针对 olap(在线分析处理)的业务,olap和oltp参考https://my.oschina.net/u/2969788/blog/2875200,重点用于处理大规模数据集的分析工作,通常的操作只有添加和查询,不会涉及到严格事务要求和实时的并发操...

2018-01-23 17:51:00 128

转载 java web项目开发流程

需求->原型->接口/表设计 ----------------------------------产品经理介入------------------------------- 1:产品经理分析客户(市场)需求,整理需求,产出物->产品原型 2:整理业务逻辑流程...

2017-12-03 11:20:00 122

转载 spark 数据倾斜问题

spark数据倾斜问题数据倾斜问题的描述在Spark中，同一个Stage的不同Partition可以并行处理，而具有依赖关系的不同Stage之间是串行处理的。假设某个Spark Job分为Stage 0和Stage 1两个Stage，且Stage 1依赖于Stage 0，那Stag...

2017-04-21 17:29:00 122

转载基于 webmagic 爬取网页数据

概述: webmagic是一个开源的java语言爬虫框架,参考官网http://webmagic.io/, 本篇博客介绍爬取码云的"最新推荐",网址:https://git.oschina.net/explore/recommend 代码 packa...

2017-04-14 17:24:00 138

转载 mapreduce执行过程概述

MapReduce框架 Mapreduce初析 Mapreduce是一个计算框架，输入<k,v>类型的值得到一个计算之后的<k,v>类型的值,重点在于它是分布式运行的,也就是说计算的第一阶段Map会在多个不同节点上同时执行一套计算逻辑,之后再通过combiner...

2017-04-07 11:25:00 446

转载 hive 表类型和基本表操作

概要: hive是一个基于 hdfs的数据仓库,会将 hsq(类似于sql)的语句转换成 mapreduce 执行,如果配置了其他计算引擎比如spark(hive on spark),那么会转换成其他的来执行, hive数据类型基本数据类型 tinyint,...

2017-04-01 10:54:00 227

转载 hdfs 原理

概述: Hadoop Distributed File System(HDFS):是一个高吞吐量的分布式文件系统.是分布式计算的基础基本概念: NameNode (元数据节点):存储元数据信息,包括fsimage(命名空间镜像映像),edits_log(操作日志),Na...

2017-03-28 17:59:00 126

转载 zookeeper 简析

写在前面: zookeeper 是为分布式应用程序提供高性能协调服务的一个开源项目,zookeeper本身也是一个分布式的应用,所有的zookeeper节点共同维护着一个与标准文件系统类似的共享分层命名空间以及持久化在磁盘的事务日志和快照,"命名空间"类似于Linux目录结构...

2017-03-27 18:23:00 104

空空如也

空空如也