- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 北京日志挖掘的总结
使用HTLOAD将分布在各个节点的海量原始日志采集及传送到移动大云中的分布式文件系统中。由于日志是实时生成的,所以要采用HTLOAD的模式二来采集日志。 原始日志的类型分为:新闻、图片、新闻、网页、视频、社区、时评、其它页面、推荐模块。 在原始日志模型的基础上,利用PDM对各类日志进行转换、合并、清洗,生成五类中间数据。 五类中间数据:searchrank、vi
2012-09-12 15:57:20 636
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人