机器学习的常见算法示例
三本经典机器学习算法书:机器学习:(周志华)西瓜封皮的书、(李)统计学习方法、深度学习数:花封皮的deeplearning 等
决策树:对数据if else then 的方式进行逐层划分。带标签的有监督的学习方式。
聚类:无监督的方式。无指示标签。根据样本点在样本空间上的分布进行分类。最终效果取决于选择的聚类特征
时间序列:ARIMA AR:体现规律性的循环。I:差分MA:平滑,平均。效果比现在的的RNN循环神经网络效果差很多。
朴素贝叶斯:基于概率的模型。有坚实的数学基础,有强可解释性。
SVM支持向量机:将两组数据分开来,而且能找到最优分界面。不是概率模型
关联规则:无监督方法。于传统统计方法不同的在于两个两个组合或者多个之间的组合之间平凡出现的关系
神经网络:现在的深度学习基本全是基于神经网络的。利用简单的单元结构按照网络的形式进行组织
HMM隐马尔可夫模型:在深度学习应用之前多应用于NLP。其进化版为条件随机场CRF,用于解决识别边界的划分问题。有时候会在神经网络的后端加入CRF。
回归算法:曲线拟合散点
遗传算法:不算是模型,而是一种求解最优化的方法。
K近邻、文本挖掘->NLP问题
机器学习工具:基本都是Python了。
数据挖掘工作的实际经验:
- 不要去证明常识;但也不要出、“颠覆性”的结论eo最好的结论是:“意料之外,情理之中”
- 跨行业数据的结合比较易于出效果
- 难点:先验知识的合理运用
- 数据来源、数据质量一直是个大问题
- 重视基础性工作: 90%时间花在洗数据上!
三大经典算法介绍:决策树、关联规则、聚类
决策树:
划分纯度的度量方式:基尼系数、熵等。熵entropy定义式:,。单位:bits 因为一个比特代表两种可能性。 自己的概率作为权重,然后看概率距离0的程度。如果可能性多,而且平均分布,熵就会很大,纯度越差。当熵是0时候,表示只有一个状态。下面是一个决策树的例子:
熵减就是信息增益