第108课: Spark Streaming电商广告点击综合案例动态黑名单过滤真正的实现代码
/*王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
在什么时候实现动态黑名单的过滤
动态黑名单过滤代码实战
跟android等其他所有开发相比较,大数据开发的不同点:40%的时间花在性能调优、shuffle、数据倾斜;实际编码的
时间最多占30%,还有30%的时间用在数据建模,数据分析,架构分析,需求分析。
//动态过滤黑名单实现 ,数据在RDD中的,使用transform这个函数,
//这个读入的kafka的数据是pair<string,string>,因此 使用 transformToPair
//一个原因是过滤后数据要进行进一步处理,所以必须是读进来的kafka数据的原始类型
//每个batch duration输入的是一个仅仅被一个RDD封装的,你可以有多个InputDstream,但是在产生job的时候,
不同的InputDstream相当于spark基于hdfs操作的不同文件来源而已。