机器学习算法

最新推荐文章于 2024-05-03 16:53:09 发布

zcm is well

最新推荐文章于 2024-05-03 16:53:09 发布

阅读量461

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/C_good/article/details/72730615

版权

机器学习算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、K均值聚类算法
二、朴素贝叶斯分类器
三、随机森林（Random Forest)

1、K均值算法简介：

首先选取需要聚类的个数，设为字母K；然后随机选取K个聚类中心，分别计算余下的样本点到个聚类中心的距离，这些点距离哪个聚类中心近，就将其归为该类。此时从第一次聚好的各类中，选取新的聚类中心，新的聚类中心计算方法为各类样本横纵坐标均值，这样新的聚类中心就产生了。然后重复以上运算，直到新的聚类中心与上一次聚类中心达到某个设定阈值，就表示趋于稳定。

K均值聚类算法中常问考点：

A: K的选择问题？（答：可以选择K取0~9中某个系数，计算K依次取值时的轮廓系数，哪一个K值对应的轮廓系数较大，K值就选取该值，PS:轮廓系数是关于聚类好坏的一个评判系数，具体计算公式，可以某度一下。）

B: 初始聚类中心如何选择？（答：初始聚类中心点选择时，各点之间最好聚类越大越好，如第一个点随意选择好，第二个点尽量离第一个点远，第3个初始聚类中心离第一个和第二个点最近，以此类推）

特此说明：以上答案是在参考网上一些答案，结合自己理解整理的，如有不对，请批评指正！欢迎一起交流。

2、朴素贝叶斯分类器

这里为什么讲到朴素贝叶斯分类器，结合自己亲身经历说明一下，本人今年4月份参加春招，其中携程笔试中最后一题考到了朴素贝叶斯；阿里电话面试中，也被问道朴素贝叶斯分类器的相关问题。

在这里我不打算将算法原理，网上相关资料很多，我就讲讲我所知道有关朴素贝叶斯相关知识点，结合自己网上看到的。

问题一：朴素贝叶斯算法，为什么有朴素二字，或者朴素体现在什么地方？

答：朴素贝叶斯它假设了各属性之间相互独立（这点很重要），能够在根据先验概率和后验概率，进行公示推导。

还有个人建议：如果想深刻理解朴素贝叶斯公式推导，即计算过程，自己单独找一道题目，自己独立好好做做，体会朴素贝叶斯每一步计算过程。

3、随机森林，相信这个算法绝大数人不会感到陌生，我也是后来在别人博客中知道，阿里天池大数据比赛好多参赛者选择了随机森林算法进行参赛，的确随机森林算法在处理大数据量，以及多特征，缺失值等情况下，具有较好分类效果。它实际上就是多个决策树构建而成，学习该类算法，前提知道决策树的构成构成。当然了在随机森林学习过程中，要时刻体会“随机”二字的妙处，它主要体现在两个方面：第一个随机性是训练样本集是随机选取的，这样保证了构建每颗决策树时的不同，第二随机性体现在决策树构建过程中分裂点的特征选择，首先从特征集中随机选择k个特征，然后再在这k个特征中选择最优的一个特征进行分裂，最优如何选取，就涉及到信息增益的相关知识了。信息增益越大，表明这类特征越好，信息增益公式 = 信息熵 — 条件熵；这是因为随机森林这些特点，使得它不容易陷入过拟合（何为过拟合：就是训练样本集分类效果好，但是到了测试集时，分类效果很差。）

PS:欢迎批评交流！！！

zcm is well

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法

一、K均值聚类算法二、朴素贝叶斯分类器三、随机森林（Random Forest)1、K均值算法简介：首先选取需要聚类的个数，设为字母K；然后随机选取K个聚类中心，分别计算余下的样本点到个聚类中心的距离，这些点距离哪个聚类中心近，就将其归为该类。此时从第一次聚好的各类中，选取新的聚类中心，新的聚类中心计算方法为
复制链接

扫一扫