1)Linux命令获取addid=20的所有的记录并存储到access-20.log
a)awk grep
b) >> >
2) RDD 算子 实现p分组 对addid求和 并写入mysql
a)日志解析 提取所需的字段 用reduceByKey
b) coalesce(如果分区数太多,改变partitions) rdd.partitions.size 数量问题
c) foreachPartition
3)假设日志1亿条数据,8000w是p=1 ,求和
先打散,再聚合
代码
自定义RDD的printInfo 方法
隐式转换
定义切面
导入切面 import
常用的transformation和action有哪些?
算子 cogroup
join
以上基于RDD[K,V]
普通的操作:RDD
join等kv :PairRDDFunctions
RDD[k,v] join RDD[k,w]===>RDD[(k,(v,w))]
def join[W](other :RDD[(K,W)]):RDD[(k,(v,w))]
def leftjoin[W](other :RDD[(K,W)]):RDD[(k,(v,option(w)))]
def coproup[W](other :RDD[(K,W)]):RDD[(k,(Iterable[v],Iterable[w]))]
join底层使用cogroup
不用 distinct 如何去重
xxByKey====>RDD[Int] ==>RDD[Int,v]
简述你在大数据使用或者研发过程中遇到的10个问题,以及你的定位方式和解决方案
常见的shuffle算子有哪些
RDD实现WC一共产生几个RDD 6个、 todebugstring 调试看有几个RDD