机器学习是一门入门容易但精通难的学科
•
机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解
读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
•
机器学习的主要流程是
明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新
明确数据分析目标是机器学习首要的重要步骤,这个步骤需
要与用户进行充分的沟通。
项目主题:
中国移动客户细分模型
项目范围:本期项目以乐山市为试点城市
项目目的:按用户行为进行细分,客观反映用户需求。通过
对各类人群的深入分析,为相关部门制订资费、服务、市场
策略提供基础。
项目内容:
建立客户细分模型
结合各部门需求对客户细分群进行详细分析
协助市场经营部进行相关服务、市场活动的策划
收集相关的数据(内部业务系统的数据、外部数据)
外部数据可以通过网络爬虫、购买或交易方式获得。
充足、全面的高质量数据是机器学习的基础。
算法本身没有绝对的好坏,不同的机器学习算法都有各自的
使用范围。
选择合适的建模方法或算法,算法的好坏需要实验比较确定。
此阶段是机器学习的核心部分,使用精巧复杂的分析方法从
数据中提取知识,包括选择建模技术、生成测试设计以及构
建和评估模型。
算法调优(包括参数或结构等方面)
机器学习算法是科学,应用是艺术。
分类算法
分类与回归的区别
决策树原理
分类算法
相亲模型
根据用户
ARPU
值预估用户收入
回归
分析是分析一个变量与其他一个(或几个)
变量之间的相关关系的统计方法。
分类
就是通过分析训练集中的数据,为每个类
别做出准确的描述或建立分析模型或挖掘出分
类规则,然后用这个分类规则对其它数据对象
进行分类。
决策树、支持向量机、神经网络、朴素贝叶斯、
Bayes
网络、
k-
最近邻
等是几种常用的分类方法。
传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元,
边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权
重和偏置。递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。
神经网络的训练主要包括
前向传输
和
反向传播
。
神经网络的结果准确性与训练集的样本数量和分类质量有关。
神经网络是基于历史数据构建的分析模型,新数据产生时需要动态优化网络的结构和参数。