- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 某网站日志分析系统的项目架构
1、数据采集利用js代码在页面埋点,抓取信息到web服务器。2、从web服务器上汇集日志到hdfs(分布式文件系统),这里采取flume组件采集日志。flume可配置高可靠的,对数据进行脱敏、过滤,数据采集可以实时的,也可以定时采集到hdfs中。3、使用mapreduce计算框架清洗数据,处理得到点击流模型4、使用hive创建点击流模型表,这样可以使用hql进行更多维度统计
2016-09-15 00:27:43 1849
原创 Spark面对OOM问题的解决方法及优化总结
http://blog.csdn.net/yhb315279058/article/details/51035631Spark面对OOM问题的解决方法及优化总结
2016-09-09 21:02:05 254
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人