机器学习PAI实现精细化营销
1.精细化营销的目标用户就是有需求的用户,精细化营销不是私人定制(移动套餐):低成本高收益
2.聚类没有参考物,分类有参考物
3.精细化营销的数据处理过程:
商业理解:业务理解,需求理解,目标确认,什么流程,什么方案
数据理解:数据分布,数据来源,覆盖业务,数据质量
数据预处理:解决脏数据,错误数据问题,把数据标准化规范化,提高数据质量
归一,采样,拆分,过滤,映射等(如:汉字和数字和英文字符——归一)
构建模型:机器学习实现算法的模型
回归,分类,聚类
模型评估:对前期的模型构建后的数据模型进行评估是否满足要求,实现预估目的,达到目标(不同方法,不同参数等)
模型发布
4.精细化营销示例:
集团客户健康度分析,西南航空——客户分群价值评估(降低空座率),百货公司——怀孕预测指数
5.将没有共同信息或消费模式的客户找出的过程就是客户分群的过程
6.数据模型构建:历史数据通过训练,通过计算,找到模型,预测未来
7.阿里云机器学习PAI主要特点:
降低存储和计算成本,降低技术门槛
8.机器学习PAI应用流程不一定必须,由特定任务场景决定
9.PAI有三类数据源:OSS,MySQL数据库,MaxCompute
10.数据预处理模块包括:
采样与合并:随机采样,加权采样,过滤与映射,分量采样
数据合并:
类型转换,增加序号列,拆分,缺失值填充,归一化,标准化,KV in Table,Table in KV
11.特征工程功能组件包括:
特征变换:特征尺度变换,特征异常平滑,异常检测模块,one-test编码,特征提取,生成分析(PCA)
特征重要性评估
特征选择
特征形成
12.统计分析:
数据视图,协方差,经验概率密度图,全表统计,卡方拟合性检验,卡方独立性检验,精线图,散点图,相关系数矩阵,双样本T检验,单样本T检验,正态检验,洛伦兹曲线,百分位,皮尔斯系数,直方图(多字段),离散值特征分析
13.机器学习组件就是算法处理组件:
二分类;多分类;聚类:K均值聚类;回归;关联推荐;
14.评估组件:
二分类评估
回归模型评估
聚类模型评估:系数CH基于类内聚合度和类间分离度定义的聚类评价指标,数值越大划分越优秀(分类不同最优聚类不同)
混淆矩阵
多分类评估
评估后可进行在线预测部署或离线调度
15.特征因子分析:(反复迭代,不断计算评估,找到最好的数据属性)
数据中包含的数据变量,如果过多参与建模,势必削弱主要业务属性的影响,并给分析带来困难;相反,如果过少则可能遗漏一些重要属性关系,因此特征因子分析至关重要