1.小文件
删除
合并
普通文本
复杂的storage Format:ORC/parquet
==>Code :MapReduce/Spark(EXTDS)
设定阈值,筛出需要合并的文件
input /1.txt 500M
/2.txt 500M
/3.txt 2K
/4.txt 1K
spark.read.format("").load(input).coalesce().write.format("").save(ouput)
只要是spark外部数据源支持的format
cdh 默认blocksize:128M 256M
以下两个文件占用相同的元数据空间
1k
120M
2.sql小案例
select session_id,collect_set(ad_id) from click_log group by session_id
select session_id,collect_list(ad_id) from click_log group by session_id
lateral view outer explode 左连接类似
一行变多行
数组排序
是否包含某个字符
3 Kafka offset管理
0.8.2.1 需要偏移量管理 0.10.1.1 不需要 _kafka_offsets 主题中存储
pom ==>scala工程
依赖
scala 2.11.8
spark-streaming
streaming-kafka依赖
mysql
Kafka
zk
创建主题
mysql中创建 表
scalikejdbc