Review(11)

1.小文件

      删除

      合并

             普通文本

            复杂的storage Format:ORC/parquet

                    ==>Code :MapReduce/Spark(EXTDS)

            设定阈值,筛出需要合并的文件

               input /1.txt  500M

                        /2.txt  500M

                        /3.txt 2K

                      /4.txt  1K

              spark.read.format("").load(input).coalesce().write.format("").save(ouput)

                            只要是spark外部数据源支持的format

             cdh  默认blocksize:128M  256M

              以下两个文件占用相同的元数据空间    

                 1k

                 120M               

2.sql小案例

       select session_id,collect_set(ad_id) from click_log group by session_id

      

        select session_id,collect_list(ad_id) from click_log group by session_id

 

 

lateral view outer explode   左连接类似  

一行变多行

数组排序

是否包含某个字符

3 Kafka offset管理

   0.8.2.1 需要偏移量管理  0.10.1.1 不需要 _kafka_offsets 主题中存储

   pom  ==>scala工程

 

  依赖

  scala 2.11.8

   spark-streaming

   streaming-kafka依赖

  mysql

 

Kafka  

    zk   

    创建主题

 

mysql中创建 表

scalikejdbc 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值