本文为《Spark大型电商项目实战》 系列文章之一,主要进行top10热门品类模块中的本地测试环节。
本地测试
像之前本地测试时一样,将MySQL数据库中task
中task_param
的参数日期改为当天日期,然后再运行程序。
程序运行完成后,没有报错,并且在表top10_category
中出现类似于以下数据
说明测试通过。
注意事项
由于整理本系列文章时已经进行过拍错,之前的代码运行应该不会出现太大的错误,这个模块需要注意的事项或是说容易出现的错误点为:
- 当第一步拿到品类id后必须要去重,如果不去重,会出现对重复的
categoryid
进行排序,得到的结果也是重复的数据; - 自定义的二次排序key必须实现
Serializable
接口,表明是可以序列化的,否则会报错; - 在获取各品类点击次数RDD时,要返回
row.get(6) != null ? true : false
,而不要使用getLong
,否则会拿到点击为0的数据。
以上注意事项在代码实现过程中已经标注或已经更正,需要特别注意。
《Spark 大型电商项目实战》源码:https://github.com/Erik-ly/SprakProject
本文为《Spark大型电商项目实战》系列文章之一,
更多文章:Spark大型电商项目实战:http://blog.csdn.net/u012318074/article/category/6744423