文章目录
常见问题
- 项目会涉及到哪些技术?
- Nginx
- HDFS
- Flume
- MapReduce
- Scala
- Spark
- 可视化展示
- 需要会哪些编程语言?
- 具备Java基本知识
- 具备Html基本知识
- Scala?会Step by Step讲解
- 需要提前做哪些准备?
- 准备Linux运行环境
- 搭建CDH集群
项目背景
- 用户行为分析需要分析哪些内容?
你是谁?
你从哪里来
- 免费流量
- 直接打开网页
- 好友推荐
- 微信/微博/QQ
- 友情链接
- 搜索引擎自然流量
- 付费流量
- 上网导航
- 广告直通车
- 搜索引擎SEM
- 为何要分析用户来源?
- 不同流量质量存在差异!
你要到哪里去?
- 在浏览的过程中会留下各种行为数据!
- 终极目标:促使用户形成转化效果
- 购物类:淘宝、京东、小红书、拼多多
- 促进购买
- 理财类:陆金所、蚂蚁财富
- 促进投资
- 新闻类:今日头条
- 提升阅读量
- 视频类:爱奇艺、腾讯视频
- 提升观看量
- 购买会员
行为数据价值
- 作为评价指标
- 哪个页面访问人数最多
- 哪个商品最有价值
- 构建画像
- 用户属性画像
- 用户行为画像
- 促进转化率
- 构建渠道分析模型
- 构建广告点击模型
- 构建商品推荐模型
- 风险控制
- 识别羊毛党
- 团伙欺诈
行为分析指标
数据指标
数据搜集
- 需要搜集哪些行为数据?
- 网页访问日志
- 业务行为
- 收藏
- 评论
- 添加购物车
- 下单
- 支付
- 点击行为
- 鼠标悬停
- 按钮/图片点击
数据搜集面临的挑战
- 所有的访问行为均以日志的形式记录
- 日志文件离散存储
- 日志文件非结构化
- 记录数量巨大:TB级每日
- 数据孤岛
- 文件
- 访问日志
- 行为日志
- 数据库:MySQL/Oracle
- 业务数据
- 文件