![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据之禅
Cold丶kl
这个作者很懒,什么都没留下…
展开
-
大数据杂谈 - TextFile&ORC Block Split
本篇目的:对比TextFile 与ORC 格式在不同引擎下Block是否可切分TextFile普通行式存储表,没有花里胡哨东西,压缩算法一般搭配LZO一般LZO压缩后的文件无法拆分,需建立索引,拆分block,提高并行度索引建立方式:hadoop jar $HADOOP_LZO com.hadoop.compression.lzo.DistributedLzoIndexer hdfs_lzo_path建完索引后,LZO文件就可拆分,MR读取LZO数据时,在Map端会按索引对LZO文件进行分拆,具原创 2020-06-18 15:10:58 · 337 阅读 · 0 评论 -
Spark-SQL 查看执行计划API
举个例子:scala>spark.sql(“select count(1) as nums from gdm.gdm_m03_glb_item_sku_da where dt = ‘2020-06-08’”).explain(true)在Spark.sql()方法后加 explain,入参为true返回类型为Unit// 解析逻辑执行计划== Parsed Logical Plan =='Project ['count(1) AS nums#464]± 'Filter ('dt = 20原创 2020-06-09 20:42:04 · 15589 阅读 · 0 评论 -
Spark33个算子梳理-Scala版
Spark33个算子梳理-Scala版什么是算子?spark 中对RDD进行操作的一些方法,这些方法作用于RDD的每一个partition。算子如何划分从大的方向来说,spark算子可以分两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转...原创 2020-02-23 21:18:10 · 29573 阅读 · 0 评论 -
WITH在数据开发中的奇技淫巧
絮絮叨叨笔者常见的数据开发中,发现如果脚本需要产生中间表,或者说想要提升脚本性能,把这段中间表逻辑变为子查询,在人肉堆SQL生涯中,不外乎两种办法:CREATE TABLE tmp.tmpxxxxx AS优点:可以落物理表,验数时可追溯源头;缺点:多一次落盘操作,讲白了说多IO,造成大量磁盘和网络开销CACHE TABLE tmpxxxxx AS优点:中间数据广播到每个节点,加...原创 2020-02-22 21:30:52 · 26699 阅读 · 0 评论 -
kazoo扫盲指南,简述ZK ACL权限控制及使用方式
kazoo扫盲指南kazoo是什么?官方文档基本用法会话状态zookeeper的增删改查读取数据更新数据删除节点监听器kazoo事务Zookeeper权限控制之ACL创建ACL权限认证:查看节点ACL权限:访问有权限的Zookeeper节点:kazoo是什么?Python版Zookeeper客户端工具,可以利用Python能够轻松、便捷的使用zookeeper,与之产生交互官方文档http...原创 2020-01-21 14:47:16 · 27216 阅读 · 1 评论 -
浅谈一个新人的大数据之路-HiveQL&Spark-SQL中谓词下推
CCCCCold丶大数据之禅什么是谓词下推?为什么要进行谓词下推?谓词下推优化方式谓词下推在Join中应用INNER JOIN什么是谓词下推?在传统关系型数据库中,优化关系 SQL 查询的一项基本技术是,将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块(例如视图),从而能够提早进行数据过滤以及有可能更好地利用索引。这在分区数据库环境中甚至更为重要,其原因在于,提早进行过滤有可...原创 2019-10-22 21:08:18 · 26967 阅读 · 0 评论 -
浅谈一个新人的大数据之路
CCCCCold丶大数据之禅第一章,大数据之路浅谈数仓&数据集市&数据湖数据模型从模型ETL频率一般将模型划分为:从模型存储技术上讲,模型划分为:从数据分层角度讲,模型又会被划分为:从模型创建类型上讲,模型又会被划分为:从模型存储类型上讲,模型又会被划分为:从模型压缩算法上讲,又有如下划分:队列:计算引擎:第一章,大数据之路浅谈数仓&数据集市&数据湖数据仓库:...原创 2019-08-04 22:30:07 · 23203 阅读 · 1 评论 -
浅谈一个新人的大数据之路-HDFS
CCCCCold丶大数据之禅-HDFS篇HDFS简介HDFS设计理念HDFS-shell 常用操作:HDFS简介HDFS:分布式文件存储系统(Hadoop Distributed Filesystem),管理网络中跨多台计算机存储文件的系统。HDFS设计理念硬件错误:硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系...原创 2019-09-01 19:55:29 · 26342 阅读 · 0 评论 -
浅谈一个新人的大数据之路-ORC篇
CCCCCold丶大数据之禅ORCFile原理TEXTFile普通列式存储RCFileORCFileORCFile原理ORCFile是什么?ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。ORCFile演变史TEXTFile -> 行...原创 2019-09-09 18:09:07 · 27509 阅读 · 0 评论