一.项目目的
1.深入了解服务:用户的浏览路径、购买频率、商品评价等数据,能够精准地刻画用户画像。了解用户的年龄、性别、地域等基本信息,以及他们的兴趣爱好、消费习惯等更深入的特征,从而为个性化的营销和服务提供依据。
2.优化用户体验:通过分析用户在页面之间的跳转时间、购物车的使用情况等,找出可能存在的流程不畅或设计不合理的地方。
3.提高运营效率:对商品销售数据、库存数据等进行关联分析,有助于合理安排库存和采购计划。通过分析用户购买行为和商品销售趋势,可以准确预测商品的需求,避免库存积压或缺货情况的发生。
4.提升销售效果:基于用户行为数据的分析,能够对用户进行精准细分,针对不同类型的用户制定不同的营销策略。
二.项目意义
1.增强竞争力:在竞争激烈的电商市场中,通过该系统准确把握用户需求和行为,提供更好的产品和服务,能使企业在众多竞争对手中脱颖而出。
2.增加收益与促进创新:优化运营效率、提高用户购买转化率以及提升用户的购买频率和消费金额等,都直接关系到企业的经济效益。精准的营销活动可以降低营销成本,同时提高销售额。用户行为数据中可能蕴含着新的商业机会和产品创新方向。通过分析用户的反馈和需求变化,企业可以开发出更符合市场需求的新产品或服务。
3.提供更好的购物体验:用户能够在电商平台上更快速地找到自己感兴趣的商品,享受更便捷的购物流程和更优质的服务。
4.增强用户参与感:如果电商平台重视用户的反馈和行为数据,用户会感觉自己的意见得到重视,从而增强对平台的认同感和参与感。
5.推动行业数据化转型:电商用户行为数据分析与可视化系统的应用,为整个电商行业树立了数据驱动的典范,促使更多电商企业重视数据的价值,推动行业整体向数字化、智能化方向发展。
三.实现流程与环境介绍
1.三台虚拟机(尚硅谷)它集成了多种大数据技术和工具,以实现用户行为数据的采集、存储、分析和可视化展示。根据您提供的信息,该系统主要使用了Zookeeper、Kafka、Flume、Hadoop、Hive、Spark等技术,并分为ODS(Operational Data Store)、DWD(Data Warehouse Detail)、DWS(Data Warehouse Summary)、ADS(Application Data Store)四层数据架构。数据仓库四层表结构,均随机选取的莫些表。

2.数据采集层:Zookeeper:作为分布式协调服务,Zookeeper在系统中主要用于Kafka集群的管理和协调,确保Kafka集群的稳定性和可靠性。Kafka:一个高吞吐量的分布式消息系统,用于实时数据的传输。在电商用户行为分析系统中,Kafka负责接收Flume采集的用户行为日志数据,并将其分发给下游的数据处理系统。
Flume:一个分布式、可靠且可用的服务,用于高效地收集、聚合和移动大量日志数据。在电商场景中,Flume用于实时采集用户在电商平台上的行为数据,如点击、浏览、购买等,并将这些数据发送至Kafka。
3.数据存储层Hadoop:作为分布式存储系统,Hadoop(特别是其HDFS组件)用于存储海量的用户行为数据。Hadoop提供了高可靠性和可扩展性的存储解决方案,支持PB级数据的存储。Hive:建立在Hadoop之上的数据仓库工具,提供了类似SQL的查询语言(HiveQL),使得用户可以方便地对存储在Hadoop中的数据进行查询和分析。在电商用户行为分析系统中,Hive不仅用于数据存储,还用于数据分析,支持复杂的查询操作。


上图是hdfs上面的数据格式
4.ODS层(Operational Data Store)
ODS层是操作数据存储层,直接存储从数据源(如Flume采集的用户行为日志)获取的原始数据。这些数据未经任何处理,保持原始状态,为后续的数据处理和分析提供基础。
--活动信息表
| 字段(里面是json格式) | 解释 |
| common | 公共信息 |
| Page | 页面信息 |
| actions | 动作信息 |
| displays | 曝光信息 |
| start | 启动信息 |
| err | 错误信息 |
| ts | 时间戳 |
5.DWD层是明细数据层,对ODS层的数据进行清洗和转换,去除噪声数据,纠正错误数据,并将数据转换为适合分析的格式。在电商用户行为分析系统中,DWD层的数据可能包括用户ID、行为类型、时间戳等详细信息。
交易域下单事务事实表
| 字段 | 解释 |
| Id | 编号 |
| Order_id | 订单id |
| User_id | 用户id |
| Sku_id | 商品id |
| Province_id | 省份id |
| Activity_id | 参与活动id |
| activity_rule_id | 参与活动规则id |
| coupon_id` | 使用优惠劵id |
| date_id | 下单日期id |
| create_time | 下单时间 |
| sku_num | 商品数量 |
| split_original_amount | 原始价格 |
| split_activity_amount | 活动优惠分摊 |
| split_coupon_amount | 优惠卷优惠分摊 |
| split_total_amount | 最终价格分摊 |
6.DWS层是汇总数据层,在DWD层的基础上对数据进行进一步的汇总和聚合。例如,可以计算每个用户的日访问量、周访问量、月访问量等指标,或者统计某个商品在一定时间内的点击量、购买量等。DWS层的数据更加精炼,便于后续的数据分析和可视化展示。
ADS层(Application Data Store)
流量域会话粒度页面浏览最近1日汇总表
| 字段 | 解释 |
| Session_id | 会话id |
| Mid_id | 设备id |
| Brand | 手机品牌 |
| model | 手机型号 |
| Operate_system | 操作系统 |
| Version_code | APP版本号 |
| channel | 渠道 |
| During_time_1d | 最近一日浏览时长 |
| Page_count_1d | 最近一日浏览页面数 |
7.ADS层是应用数据存储层,存储最终的分析结果和报表数据。这些数据可以直接用于电商平台的业务决策、用户画像、精准营销等场景。在电商用户行为可视化大屏系统中,ADS层的数据将被展示在大屏上,供管理层和决策者实时查看。
活动效果分析表
| 字段 | 说明 |
| dt | 日期 |
| user_id | 用户id |
| total_order_original | 总下单原始金额 |
| total_activity_reduction | 总活动优惠金额 |
| total_coupon_reduction | 总优惠卷金额 |
| total_final_amount | 总下单最终金额 |
用户下单频率分析
| 字段 | 解释 |
| dt | 时间 |
| User_id | 用户id |
| Order_count | 下单次数 |
| Oreder_frequency | 下单频率 |
每日各省份页面浏览统计
| 字段 | 解释 |
| Dt | 日期 |
| Province_id | 省份id |
| Page_view_count | 页面浏览数 |
| Total_during_time | 总浏览时长 |
数据分析层(ads)莫些表hql语句(hive数据库)
--. 用户购买偏好分析
DROP TABLE IF EXISTS ads_user_purchase_preference;
CREATE TABLE ads_user_purchase_preference
(
`dt` STRING COMMENT '日期',
`user_id` STRING COMMENT '用户ID',
`total_order_num` BIGINT COMMENT '总购买商品件数',
`total_spent` DECIMAL(16, 2) COMMENT '总消费金额',
`purchase_preference` STRING COMMENT '购买倾向'
) COMMENT '用户购买偏好分析表'
---渠道页面浏览统计
DROP TABLE IF EXISTS ads_channel_page_view;
CREATE TABLE ads_channel_page_view
(
`dt` STRING COMMENT '日期',
`channel` STRING COMMENT '渠道',
`page_view_count` BIGINT COMMENT '页面浏览次数',
`total_during_time` BIGINT COMMENT '总浏览时长(毫秒)'
) COMMENT '营销渠道页面浏览统计表';
注:其他层建表语句比较长,省略了
例子:完整的分析流程


四.数据可视化大屏
可视化大屏是电商用户行为分析系统的前端展示部分,通过图表、地图、仪表盘等多种形式直观地展示用户行为数据和分析结果。大屏上的数据来源于ADS层,可以实时更新。



579

被折叠的 条评论
为什么被折叠?



