三有保险用户画像-项目文档

Taker256

已于 2023-11-15 18:17:10 修改

阅读量201

点赞数

文章标签： mysql hadoop hive flume spark elasticsearch 数据库开发

于 2023-11-12 10:48:56 首次发布

本文链接：https://blog.csdn.net/Taker256/article/details/134358024

版权

保险用户画像-项目文档

01 项目背景

项目名称: 三有人寿保险画像项目-Have Three Values（HTVInsuranceUP）
- 有爱、有家、有保险
项目内容：
- 保险画像

02.项目介绍

2.1用户画像画像-HOW?

用户画像就是给用户打上海量的标签, 根据用户的目标, 行为和观点差异将用户区分成不同的类型, 从每种类型中提出出关键的信息(标签的名字) 形成人物原型, 实际就是`用户信息标签化.

个体用户画像
群体用户画像

2-2画像-Why

数据业务化-加深用户认知，指导业务开展
数据技术化-构建用户标签，支持上层应用

2-3画像-How

数据获取
- 静态数据：用户属性-姓名、性别、年龄。。。。用户提供
- 动态数据：用户行为-下单退货理赔
设计指标
- 构建指标体系-以业务需求为导向
- 明确开发需求-标签怎么计算，设计开发模型
项目开发
- 用户标签计算-大数据技术栈

2-4画像-Where

数据分析-根据标签维度进行统计分析
精准营销
搜索引擎
广告投放
风控检测
推荐系统
指导产品

03.项目计划

开发周期 -4天

第1天 完成ods层数据导入,完成Hive导入到es,完成所有标签的规则分析,以及12个匹配类标签的计算
第2天 完成剩余10个统计类标签的计算
第3天 完成实时标签计算,以及导入MySQL,数据可视化,BI可视化展示
第4天 项目总结 PPT整理 展示

人员配置:

组长:1人

组员:7人

BI工程师: 1人

项目负责人: 1人

大数据开发者: 5人

测试: 1人

04.技术选型

MySQL + Hive + Hadoop + Spark + Elasticsearch + Zookeeper+ Flume + Kafka + Dolphinscheduler + FineBI

#为什么用Hive? 使用Hive可以帮助实现大数据存储和查询、SQL查询支持、数据格式兼容性、与Hadoop生态的集成以及扩展性和定制性，为项目提供了强大的数据仓库和分析能力。

#画像用到的数据为什么写入到es?

支持upsert操作,支持搜索功能 ES可以帮助实现实时数据分析、多维度查询、文本分析与全文搜索等功能，为用户画像项目提供了强大的数据存储和分析能力。我们这个项目只所以使用到es,是为了和数据仓库团队的成员在工作和管理上进行解耦,方便项目和人员的管理.

#计算引擎为什么使用spark?  1.对于复杂的业务计算，只有Hive和SparkSQL和FlinkSQL可以胜任。其他大数据组件都只能做简单的计算或更侧重存储功能。  2.Hive的MapReduce引擎计算慢，  3.Flink更擅长实时，该项目是纯离线批处理，每天或每月算一次就行。  4.SparkSQL的生态体系更完善，spark引擎比MapReduce要快很多。所以选择SparkSQL做计算引擎。

#为什么用zookeeper? 因为需要处理大量的数据，而ZooKeeper是一个分布式的协调服务，可以帮助管理和协调分布式系统中的大量节点，提供高可用性和一致性

1.分布式协调：在项目中，可能会涉及到多个节点之间的协作和协调，比如分布式锁、配置管理、领导者选举等。ZooKeeper提供了可靠的分布式协调能力，可以帮助项目实现这些功能。1
2.数据一致性：项目通常需要保证数据的一致性，而ZooKeeper提供了强一致性的数据模型，可以帮助确保各个节点上的数据状态保持一致。
3.高可用性：ZooKeeper本身就是为了提供高可用性而设计的，它采用了多副本机制来保证服务的可用性，即使部分节点出现故障，整个系统依然可以正常运行。
4.顺序一致性：ZooKeeper可以保证客户端的请求按照顺序被处理，这对于需要保持严格顺序的数据操作非常重要。

#为什么用flu