自动驾驶、智能家居、语音助手、人脸识别、无人汽车、购物推荐、机器人等人工智能不知不觉已经在我们身边不断成为我们逐步习惯的生活一部分,机器学习算法正是实现人工智能的重要工具,如何利用机器学习算法挖掘大数据中储藏的价值依然成为各行各业关乎企业未来的核心竞争力,在泛金融领域内的保险板块,近年来保险科技一直在从保险发展的痛点出发,探索机器学习算法赋能业务发展,不乏很多成功的金融科技案例,比如精准营销推荐、智能核保、保险反欺诈等,在精算生态圈中也在不推探索新技术对传统技术的推陈出新,本文基于相关研究运用机器学习算法,对物联网下的保险大数据进行保险产品风险区分,可以较好的帮助进行分类费率的厘定。
一、机器学习
机器学习旨在研究如何通过计算机手段,利用经验(数据)来改善系统自身的性能(模型算法),让计算机能更具有人工智能,让产品更好的体现和适应这个世界。常用的基学习器算法有线性回归、逻辑回归、支持向量机、k均值聚类、密度聚类、贝叶斯分类器、协同过滤、决策树、神经网络等,结合集成学习方法可以实现大数据机器学习。
二、保险风险区分
保险产品是保险经营的核心,风险量化区分又是产品设计的核心,通俗的说,就是根据对不同承保对象风险状况的评估进行科学精准的收取与其风险状况相匹配的保费。
三、机器学习提升保险风险区分能力
以基于UBI数据的汽车保险产品为例,通过机器学习比较传统模型提升车险风险区分能力,探索思路方法如下:
(一)大数据
下文基于监督学习体系(有目标变量),采用历史赔款(或赔付率)数据作为目标变量,组织赔案对应保单车辆的驾驶人性别年龄等从人因子、车龄车系等从车因子、历史出险次数等奖惩因子、平均行驶时长里程等UBI动态数据,其中车联网的大数据不断大量积累,里面蕴含了丰富的标签因子可以解释量化风险。
按照经典机器学习的样本数据分组方法,将样本数据分为训练集、验证集和测试集,其中使用训练集来训练模型和估计参数等,使用验证集来验证模型和调优参数,以防止过拟合后预测效果较差等情况的发生,提高模型的泛化能力,使用测试集来检验所选模型对研究项目的性能如何,以及进行泛化结果的展示。常用经验的划分比例使用留出法随机抽取样本,如训练集占总样本的50%左右,而其它各占25%左右。
(二)算法
对于动辄上百个因子的车辆网大数据,传统的定价方法难以有效适应,至少在前期有效因子识别上无法做到满足许多经典分类定价方法的假设条件,这时提出使用机器学习算法则可以充分发挥其长处,通过实践表明对多因子进行处理的机器学习算法对风险识别能力有较好的提升度。在这里机器学习算法包括进行分类的基学习器模型和多模型融合的集成学习方法两部分。
1.基学习器模型