项目记录
白头搔更光
这个作者很懒,什么都没留下…
展开
-
3.项目记录将ODS层的数据处理成DWD层
将ODS层的数据通过清洗转换处理成DWD层的数据,保存成parquet格式主要工作:数据规范处理,将一些字段处理成同一的规范(时间,日期,空字符统一...) 将设备id,和用户账号同时为空的记录过滤 将分析用的一个关键字段缺失的记录过滤 过滤时间不符合的记录 将数据扁平化 session分割(对App的用户两次操作的时间) 1,对于web端日志,按天然session分割,不需处理 2,对于app日志,由于使用了登录保持技术,导致app进入后台很长时间后,再恢复前台,依然是同一个ses原创 2020-09-03 20:42:10 · 2893 阅读 · 0 评论 -
2.项目记录将HDFS中的日志数据导入Hive的ODS层
将HDFS中的数据导入到Hive中工作场景由于公司里的日志数据有20-30个字段,并且根据事件类型不同,生成的日志类别也有所差别方案设计将日志通过不同的来源划分成几种,比如分成了WEB_EVENT,APP_EVENT,WXAPP_EVENT等几种数据来源,每种数据来源的结构保证相同,例如:{"account":"","appId":"cn.xxx","appVersion":"2.0","carrier":"小米移动","deviceId":"ZvRWCBGAuSaK","deviceType"原创 2020-08-31 20:28:10 · 567 阅读 · 0 评论 -
1.项目记录Flume采集用户行为日志到HDFS
1.项目记录Flume采集用户行为日志到HDFSFlume采集日志到HDFS需求解决方案具体步骤Flume采集日志到HDFS将产生的数据不断的导入到HDFS上,供方便后续使用,日志通过前端,后端埋点通过HTTP同步到了不同的日志服务器上,所以使用Flume将日志文件以及Kafka中的用户行为数据通过Flume导入到HDFS上需求将日志服务器中的用户行为日志上传到HDFS上解决方案在所有的日志服务器上安装Flume,每个Flume监控一个或者多个日志文件夹,将用户行为日志同步到各种数据源中,可以实原创 2020-08-30 20:39:51 · 546 阅读 · 0 评论