一.项目介绍
- 相关术语:风险:不确定性。寿险和非寿险(财产,责任,健康,意外)。精算师。投保人:申购或缴费保险的人。被保人:以谁的生命作为标的。受益人:获取理赔金的人。保险人:保险公司。保险准备金:从保费收入或盈余中提取的所承担保险责任相对应的一定数量的基金。生命表:根据以往一定时期内各种年龄死亡统计资料编制的一种统计表。保费:投保人向保险公司缴纳的费用。保额:按照相应责任,提供的做大的保障金额。 新单:首年。续期:第二年。理赔:对客户相应支付的理赔金
- 特点:交易频率低,存量数据巨大。实时需求小。常规保险部门:新产品研发。再保险。精算。渠道。核保。续期。理财。保全:跟保单变更有关的操作。财务。(精算,保全,理赔,续期)
- 用户投保流程:
- 再保险部门:
- 保险种类:风险转移类保险:寿险:定期,两全,终身寿险。健康险:医疗,重疾险。意外险:意外医疗。理财型保险:年金,万能,投资连接。
- 数据介绍:理赔数据oracle,精算mysql,保单数据postgresql
- 项目背景:计算保险准备金 ,现金价值和纯保费。后期根据精算师提供的精算模板,将这些规则转换为sparksql实现,实现后与测试模板进行对比。
二.项目业务需求与架构介绍
- 七大需求。
1.1计算所有性别,所有缴费期,所有投保年龄,在未来每个保单年度的保费参数因子相关指标。(19338)
1.2 计算所有性别,所有缴费期,所有投保年龄的每年应交保费(274111)
1.3计算所有性别,所有缴费期,所有投保年龄,在未来每个保单年度跟现金价值有关的37个指标。
1.4计算所有性别,所有缴费期,所有投保年龄,在未来每个保单年度跟准备金先关的33个指标
1.5需要依据现金价值表和准备金表关联计算后续的产品精算结果表
1.6依据产品精算结果表,关联到具体客户,得到对应客户的精算结果表体现客户当前和未来的现金价值和生存金信息
1.7依据保单详情。汇总统计得到保监会规定的指标,给公司决策使用 - 项目架构:
clouderamanager+HDFS+YARN+HIVE+SPARK+SQOOP+DS调度+springboot;
基于clouderamanager平台构建大数据分析平台,在此平台上主要部署有:zookeeper,hdfs,yarn,spark sql,sqoop等相关大数据组件,同时ds完成任务调度工作,基于spring boot完成最终图标展示。
首先数据源存储在oracle pgsql mysql,通过sqoop完成数据采集到hive中,使用sparksql完成精算统计,采用sparksql将数据导出mysql,采用springboot完成最终图标展示。 - 项目技术选型:
卸载pyspark:pip uninstall pyspark
安装pyspark: pip install -i https:pypi.tuna.tsinghua.edu.cn/simple pyspark==3.1.2
pip install -i https:pypi.tuna.tsinghua.edu.cn/simple pyspark[sql] - 演示
4.1 上传jrbx.sql到根目录
4.2 导入到数据库
4.3 jdk安装
4.4 配置数据源