- 博客(5)
- 资源 (72)
- 收藏
- 关注
原创 storm准实时应用
1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上。 2 设计架构: 1) 客户端产生数据--- 2) kafka-生产者实时采集数据(保留7天)----- 3) storm实时消费数据,处理数据 4)把实时数据统计结果缓存到memcached 中
2014-12-29 22:33:16 4389
原创 json数据源文件解析
文章: http://blog.csdn.net/lili72背景: 分布式文件通过rsync同步到生产机。 文件数 1440=24*60 也就是一分钟生成一个文件 文件命名 0000 0001 0002 ... 2358 2359 。由于文件传过来是JSON格式,需要对文件进行解析,导入HDFS中。 过程 1 rsync同步文件到当天的日期目录,每天实时把文件
2014-12-19 22:07:09 2084
原创 etl工作中的设计问题
http://blog.csdn.net/lili72背景1 : 随着接入数据和处理数据的增加,生产脚本也越来越多,脚本由于前期的开发人员没有做到规范管理,导致脚本很乱。解决方案: 1) 在lunix上规范目录,按平台,业务模块分目录存放。 2) 做好版本管理,提交到生产的脚本必须要commit到svn服务器。 3) lunix上的目录是反应到svn的目录映射。
2014-12-10 22:12:39 1266
原创 用户标签设计
http://blog.csdn.net/lili72背景: 需要更加符合实际的了解用户对产品的使用情况,取每天流水数据,统计分析一个时间段用户的行为特点: 用户地区属性:最近30天出现的地方,据此推测用户所在地方,用户出现最多和用户最近出现的地方。 用户偏好属性:最近30天用户使用的菜单,据此推测用户所偏好的产品,更深入知道用户的年龄层,定向向用户推送类似的产品。
2014-12-09 23:35:58 3946
原创 hadoop平台读取文件报错
背景: 生产环境有个脚本执行读取st层表数据时出现IO错误,查看表目录下的文件,都是压缩后的文件。详细信息如下:Task with the most failures(4):-----Task ID:task_201408301703_172845_m_003505URL:http://master:50030/taskdetails.jsp?jobid=j
2014-12-08 22:19:36 6178 1
5分钟利用Myeclipse快速搭建ssh(JPA)环境,自动生成dao,model
2012-04-19
java jar包 全集
2012-04-18
win7_64eclispe插件
2014-04-12
hadoophive
2013-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人