用户流失分析中的关键技术
机器学习:
对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。
按学习方式不同分类:
监督学习:学习样本中有结果标记
无监督学习:学习样本中无结果标记
分类模型:决策树
是一种归纳分类算法,结果为树结构。每个非叶节点均为对一个属性的测试,输出结果为离散值,每个分支对应一个不同的离散值。决策树就像是在回答一系列问题,不同的问题答案将导向不同的分支,最终得到一个分类结果。
如何构建决策树
准备工做
信息熵
信息增益
特征选择
决策树总结
集成学习
##### bagging
实际上达不到这个效果,因为模型与模型之间不是相互独立的。
boosting
#### 随机森林
Smart Bagging:随机又放回的选取数据(行),随机选取特征(列)。