保险用户画像-项目文档
01 项目背景
-
项目名称: 三有人寿保险画像项目-Have Three Values(HTVInsuranceUP)
-
有爱、有家、有保险
-
-
项目内容:
-
保险画像
-
02.项目介绍
2.1用户画像画像-HOW?
用户画像 就是给用户打上海量的标签, 根据用户的目标, 行为和观点差异将用户区分成不同的类型, 从每种类型中提出出关键的信息(标签的名字) 形成人物原型, 实际就是`用户信息标签化.
-
个体用户画像
-
群体用户画像
2-2画像-Why
-
数据业务化-加深用户认知,指导业务开展
-
数据技术化-构建用户标签,支持上层应用
2-3画像-How
-
数据获取
-
静态数据:用户属性-姓名、性别、年龄。。。。用户提供
-
动态数据:用户行为-下单 退货 理赔
-
-
设计指标
-
构建指标体系-以业务需求为导向
-
明确开发需求-标签怎么计算,设计开发模型
-
-
项目开发
-
用户标签计算-大数据技术栈
-
2-4画像-Where
-
数据分析-根据标签维度进行统计分析
-
精准营销
-
搜索引擎
-
广告投放
-
风控检测
-
推荐系统
-
指导产品
03.项目计划
开发周期 -4天
第1天 完成ods层数据导入,完成Hive导入到es,完成所有标签的规则分析,以及12个匹配类标签的计算 第2天 完成剩余10个统计类标签的计算 第3天 完成实时标签计算,以及导入MySQL,数据可视化,BI可视化展示 第4天 项目总结 PPT整理 展示
人员配置:
组长:1人
组员:7人
BI工程师: 1人
项目负责人: 1人
大数据开发者: 5人
测试: 1人
04.技术选型
MySQL + Hive + Hadoop + Spark + Elasticsearch + Zookeeper+ Flume + Kafka + Dolphinscheduler + FineBI
#为什么用Hive? 使用Hive可以帮助实现大数据存储和查询、SQL查询支持、数据格式兼容性、与Hadoop生态的集成以及扩展性和定制性, 为项目提供了强大的数据仓库和分析能力。
#画像用到的数据为什么写入到es?
支持upsert操作,支持搜索功能 ES可以帮助实现实时数据分析、多维度查询、文本分析与全文搜索等功能,为用户画像项目提供了强大的数据存储和分析能力。 我们这个项目只所以使用到es,是为了和数据仓库团队的成员在工作和管理上进行解耦,方便项目和人员的管理.
#计算引擎为什么使用spark? 1.对于复杂的业务计算,只有Hive和SparkSQL和FlinkSQL可以胜任。其他大数据组件都只能做简单的计算或更侧重存储功能。 2.Hive的MapReduce引擎计算慢, 3.Flink更擅长实时,该项目是纯离线批处理,每天或每月算一次就行。 4.SparkSQL的生态体系更完善,spark引擎比MapReduce要快很多。所以选择SparkSQL做计算引擎。
#为什么用zookeeper? 因为需要处理大量的数据,而ZooKeeper是一个分布式的协调服务,可以帮助管理和协调分布式系统中的大量节点,提供高可用性和一致性
1.分布式协调:在项目中,可能会涉及到多个节点之间的协作和协调,比如分布式锁、配置管理、领导者选举等。ZooKeeper提供了可靠的分布式协调能力,可以帮助项目实现这些功能。1 2.数据一致性:项目通常需要保证数据的一致性,而ZooKeeper提供了强一致性的数据模型,可以帮助确保各个节点上的数据状态保持一致。 3.高可用性:ZooKeeper本身就是为了提供高可用性而设计的,它采用了多副本机制来保证服务的可用性,即使部分节点出现故障,整个系统依然可以正常运行。 4.顺序一致性:ZooKeeper可以保证客户端的请求按照顺序被处理,这对于需要保持严格顺序的数据操作非常重要。
#为什么用flu