【2020人工智能培训课】笔记二 决策树、聚类、关联规则等常见算法

这篇博客介绍了机器学习中常见的决策树、聚类算法(如K-means和K-medoids)以及关联规则的原理和应用。内容涵盖了数据挖掘的实际经验,包括如何选择算法、评估指标,以及如何处理数据。文章强调了决策树的熵和信息增益,聚类的相似性和距离度量,并探讨了关联规则的支持度、置信度和提升度。此外,还提到了K-means的初始化对结果的影响以及K-medoids在处理高维数据的优势。
摘要由CSDN通过智能技术生成

机器学习的常见算法示例

三本经典机器学习算法书:机器学习:(周志华)西瓜封皮的书、(李)统计学习方法、深度学习数:花封皮的deeplearning   等


决策树:对数据if else then 的方式进行逐层划分。带标签的有监督的学习方式。

聚类:无监督的方式。无指示标签。根据样本点在样本空间上的分布进行分类。最终效果取决于选择的聚类特征

时间序列:ARIMA AR:体现规律性的循环。I:差分MA:平滑,平均。效果比现在的的RNN循环神经网络效果差很多。

朴素贝叶斯:基于概率的模型。有坚实的数学基础,有强可解释性。

SVM支持向量机:将两组数据分开来,而且能找到最优分界面。不是概率模型

关联规则:无监督方法。于传统统计方法不同的在于两个两个组合或者多个之间的组合之间平凡出现的关系

神经网络:现在的深度学习基本全是基于神经网络的。利用简单的单元结构按照网络的形式进行组织

HMM隐马尔可夫模型:在深度学习应用之前多应用于NLP。其进化版为条件随机场CRF,用于解决识别边界的划分问题。有时候会在神经网络的后端加入CRF。

回归算法:曲线拟合散点

遗传算法:不算是模型,而是一种求解最优化的方法。

K近邻、文本挖掘->NLP问题

机器学习工具:基本都是Python了。

数据挖掘工作的实际经验:

  • 不要去证明常识;但也不要出、“颠覆性”的结论eo最好的结论是:“意料之外,情理之中”
  • 跨行业数据的结合比较易于出效果
  • 难点:先验知识的合理运用
  • 数据来源、数据质量一直是个大问题
  • 重视基础性工作: 90%时间花在洗数据上!

三大经典算法介绍:决策树、关联规则、聚类


决策树:

划分纯度的度量方式:基尼系数、熵等。熵entropy定义式:$-\sum\limits_{i}{​{​{P}_{i}}{​{\log }_{2}}{​{P}_{i}}}$,。单位:bits 因为一个比特代表两种可能性。 自己的概率作为权重,然后看概率距离0的程度。如果可能性多,而且平均分布,熵就会很大,纯度越差。当熵是0时候,表示只有一个状态。下面是一个决策树的例子:




熵减就是信息增益

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值