Review(11)

最新推荐文章于 2022-08-31 23:56:34 发布

longdada007

最新推荐文章于 2022-08-31 23:56:34 发布

阅读量72

点赞数

分类专栏： Review

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18522601/article/details/96314135

版权

Review 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.小文件

删除

合并

普通文本

复杂的storage Format:ORC/parquet

==>Code :MapReduce/Spark(EXTDS)

设定阈值，筛出需要合并的文件

input /1.txt 500M

/2.txt 500M

/3.txt 2K

/4.txt 1K

spark.read.format("").load(input).coalesce().write.format("").save(ouput)

只要是spark外部数据源支持的format

cdh 默认blocksize:128M 256M

以下两个文件占用相同的元数据空间

1k

120M

2.sql小案例

select session_id,collect_set(ad_id) from click_log group by session_id

select session_id,collect_list(ad_id) from click_log group by session_id

lateral view outer explode 左连接类似

一行变多行

数组排序

是否包含某个字符

3 Kafka offset管理

0.8.2.1 需要偏移量管理 0.10.1.1 不需要 _kafka_offsets 主题中存储

pom ==>scala工程

依赖

scala 2.11.8

spark-streaming

streaming-kafka依赖

mysql

Kafka

zk

创建主题

mysql中创建表

scalikejdbc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Review(11)

1.小文件删除合并普通文本复杂的storage Format:ORC/parquet ==>Code :MapReduce/Spark(EXTDS) 设定阈值，筛出需要合并的文件 input /1.txt...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。