用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击。。。)
为什么要记录用户访问行为日志
- 网站页面的访问量
- 网站的黏性
- 推荐
用户行为日志生成渠道
- Nginx
- Ajax
用户行为日志内容
- IP
- 账号
- 时间区域
- 所使用的客户端
- 模块 appId
- 跳转的链接地址
日志数据内容:
- 访问的系统属性:操作系统、浏览器等等
- 访问特征:点击的url、从哪个url跳转过来的(referer)、页面上的停留时间
- 访问信息:session_id、访问ip(访问城市)等
用户行为日志分析的意义
- 网站的眼镜
- 网站的神经
- 网站的大脑
数据处理流程
- 数据采集
- Flume:web日志写到HDFS
- 数据清洗
- 脏数据
- Spark 、Hive、MapReduce等分布式计算框架
- 清洗完后的数据可以存放在HDFS上
- 数据处理
- 按照我们的需要进行业务的统计和分析
- Spark 、Hive、MapReduce等分布式计算框架
- 处理结果入库
- 结果可以存放到RDBMS(关系型数据库)、NoSql
- 数据的可视化
- 通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图
- ECharts、HUE、Zeppelin