大话数据挖掘常用算法（下）

吕淮子

已于 2022-04-11 07:20:17 修改

阅读量280

点赞数

分类专栏：机器学习文章标签：算法机器学习

于 2022-04-05 12:53:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hzlil/article/details/123967452

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

#博学谷IT学习技术支持#

五、CART（决策树）

算法思想：

CART：Classification And Regression Tree，中文叫分类回归树，即可以做分类也可以做回归。

分类树：处理离散数据，也就是数据种类有限的数据，输出的是样本的类别。

回归树：可以对连续型的数值进行预测，输出的是一个数值，数值在某个区间内都有取值的可能。

回归问题和分类问题的本质一样，都是针对一个输入做出一个输出预测，其区别在于输出变量的类型。

拓展知识：

CART分类树与C4.5算法类似，只是属性选择的指标是基尼系数。

基尼系数反应了样本的不确定度，基尼系数越小，说明样本之间的差异性小，不确定程度低。

分类是一个不确定度降低的过程，CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。

CART 回归树采用均方误差或绝对值误差为标准，选取均方误差或绝对值误差最小的特征。

分类：预测明天是阴、晴还是雨。

回归：预测明天的气温是多少度。

六、朴素贝叶斯（条件概率）

算法思想：

朴素贝叶斯是一种简单有效的常用分类算法，计算未知物体出现的条件下各个类别出现的概率，取概率最大的分类。

假设输入的不同特征之间是独立的，基于概率论原理，通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。

P(A)：先验概率，即在B事件发生之前，对A事件概率的一个判断。

P(B|A)：条件概率，事件 B 在另外一个事件 A 已经发生条件下的发生概率。

P(A|B)：后验概率，即在B事件发生之后，对A事件概率的重新评估。

举例说明：给病人分类。

给定一个新病人，是一个打喷嚏的建筑工人，计算他患感冒的概率。

七、支持向量机 SVM

算法思想：

常见的一种分类方法，最初是为二分类问题设计的，在机器学习中，SVM 是有监督的学习模型。

找到具有最小间隔的样本点，然后拟合出一个到这些样本点距离和最大的线段/平面。

硬间隔：数据是线性分布的情况，直接给出分类。

软间隔：允许一定量的样本分类错误。

核函数：非线性分布的数据映射为线性分布的数据。

举例说明：

1、分隔桌上一堆红球和篮球

用一根线将桌上的红球和蓝球分成两部分。

2、分隔箱子里一堆红球和篮球

用一个平面将箱子里的红球和蓝球分成两部分。

八、KNN（聚类）

算法思想：

机器学习算法中最基础、最简单的算法之一，既能分类也能回归，通过测量不同特征值之间的距离来进行分类。

计算待分类物体与其他物体之间的距离，对于K个最近的邻居，所占数量最多的类别，预测为该分类对象的类别。

计算逻辑：

1、根据场景，选取距离计算方式，计算待分类物体与其他物体之间的距离。

2、统计距离最近的K个邻居。

3、对于K个最近的邻居，所占数量最多的类别，预测为该分类对象的类别。

举例说明：近朱者赤，近墨者黑。

九、K-Means（聚类）

算法思想：

means是一个聚类算法，是无监督学习，生成指定K个类，把每个对象分配给距离最近的聚类中心。

计算逻辑：

1、随机选取K个点为分类中心点。

2、将每个点分配到最近的类，这样形成了K个类。

3、重新计算每个类的中心点。比如都属于同一个类别里面有10个点，那么新的中心点就是这10个点的中心点，一种简单的方式就是取平均值。

Kmeans和Knn的区别

Kmeans开班选老大，风水轮流转，直到选出最佳中心老大。

Knn小弟加队伍，离那个班相对近，就是那个班的。

十、最大期望 EM（聚类）

算法思想：

EM 的英文是 Expectation Maximization，所以 EM 算法也叫最大期望算法，也是聚类算法的一种。

举例说明：

菜称重，很少有人用称对菜进行称重，再计算一半的分量进行平分。

大部分人的方法是：

1、先分一部分到碟子 A 中，再把剩余的分到碟子 B 中。

2、观察碟子 A 和 B 里的菜是否一样多，哪个多就匀一些到少的那个碟子里。

3、然后再观察碟子 A 和 B 里的是否一样多，重复下去，直到份量不发生变化为止。

拓展知识：

EM和K-Means的区别：

EM是计算概率，KMeans是计算距离。EM属于软聚类，同一样本可能属于多个类别；而K-Means属于硬聚类，一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。先估计一个大概率的可能参数，然后再根据数据不断地进行调整，直到找到最终的确认参数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大话数据挖掘常用算法（下）

#博学谷IT学习技术支持# 数据分析师，除了数理统计、统计学、Excel函数等基本技能之外，还需要掌握数据挖掘算法，进行深度挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。数据挖掘算法主要有分类算法、聚类算法和关联规则三大类，这三类基本上涵盖了目前商业市场对算法的所有需求，而这三类里又有非常多的细分。算法分类连接分析：PageRank关联分析：Apriori分类算法：C4...
复制链接

扫一扫

专栏目录

吕淮子 CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

51万+: 周排名

32万+: 总排名

3万+: 访问

: 等级

196: 积分

273: 粉丝

10: 获赞

5: 评论

36: 收藏

私信

关注

热门文章

分类专栏

python 1篇
机器学习 6篇
web开发 1篇
Spark
LInux 3篇
数据治理 1篇

最新评论

Redhat7.3安装wget及yum命令方法
weixin_43393170: 就你这个好使
pandas转json去掉index索引
福气耶满满: 所以说，最终的能不能去掉索引，以及怎么去掉？如果去不掉的话，哪一种方式在read_json方式下最好？
pandas dataframe的APIto_sql写入mysql时，报错：Incorrect string value
CSDN-Ada助手: 恭喜您写了第18篇博客！看到您在解决"Pandas DataFrame的API to_sql写入MySQL时报错：Incorrect string value"的问题上的努力，我感到非常欣慰。写博客是一个很好的方式来分享知识和经验，您的持续创作无疑为读者提供了很多帮助。关于下一步的创作建议，我想谦虚地提出一个建议：您可以尝试探索一些其他常见的错误和解决方案。这样一来，读者将有机会了解更多关于Pandas DataFrame和MySQL之间的常见问题，并从您的经验中获益。同时，您也可以分享一些在实践中遇到的挑战，并提供解决问题的方法。继续保持努力和创作，期待您未来更多精彩的博客！
Redhat7.3安装wget及yum命令方法
Chen_leilei: 全网就你这个是干货！！！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。