机器学习算法

一、K均值聚类算法
二、朴素贝叶斯分类器
三、随机森林(Random Forest)

1、K均值算法简介:

               首先选取需要聚类的个数,设为字母K;然后随机选取K个聚类中心,分别计算余下的样本点到个聚类中心的            距离,这些点距离哪个聚类中心近,就将其归为该类。此时从第一次聚好的各类中,选取新的聚类中心,新           的聚类中心计算方法为各类样本横纵坐标均值,这样新的聚类中心就产生了。然后重复以上运算,直到新的聚         类中心与上一次聚类中心达到某个设定阈值,就表示趋于稳定。
        
 K均值聚类算法中常问考点:
         A:  K的选择问题? (答:可以选择K取0~9中某个系数,计算K依次取值时的轮廓系数,哪一个K值对应的轮            廓系数较大,K值就选取该值,PS:轮廓系数是关于聚类好坏的一个评判系数,具体计算公式,可以某度一              下。)
          
          B:  初始聚类中心如何选择?(答:初始聚类中心点选择时,各点之间最好聚类越大越好,如第一个点随意选           择好,第二个点尽量离第一个点远,第3个初始聚类中心离第一个和第二个点最近,以此类推)
          特此说明:以上答案是在参考网上一些答案,结合自己理解整理的,如有不对,请批评指正!欢迎一起交                 流。

2、 朴素贝叶斯分类器
        这里为什么讲到朴素贝叶斯分类器,结合自己亲身经历说明一下,本人今年4月份参加春招,其中携程笔试中           最后一题考到了朴素贝叶斯;阿里电话面试中,也被问道朴素贝叶斯分类器的相关问题。
        在这里我不打算将算法原理,网上相关资料很多,我就讲讲我所知道有关朴素贝叶斯相关知识点,结合自己网         上看到的。

         问题一:朴素贝叶斯算法,为什么有朴素二字,或者朴素体现在什么地方?
         答:朴素贝叶斯它假设了各属性之间相互独立(这点很重要),能够在根据先验概率和后验概率,进行公示            推导。
         还有个人建议:如果想深刻理解朴素贝叶斯公式推导,即计算过程,自己单独找一道题目,自己独立好好做            做,体会朴素贝叶斯每一步计算过程。

3、随机森林,相信这个算法绝大数人不会感到陌生,我也是后来在别人博客中知道,阿里天池大数据比赛好多参         赛者选择了随机森林算法进行参赛,的确随机森林算法在处理大数据量,以及多特征,缺失值等情况下,具有         较好分类效果。它实际上就是多个决策树构建而成,学习该类算法,前提知道决策树的构成构成。当然了在随         机森林学习过程中,要时刻体会“随机”二字的妙处,它主要体现在两个方面:第一个随机性是训练样本集是随         机选取的,这样保证了构建每颗决策树时的不同,第二随机性体现在决策树构建过程中分裂点的特征选择,首         先从特征集中随机选择k个特征,然后再在这k个特征中选择最优的一个特征进行分裂,最优如何选取,就涉及         到信息增益的相关知识了。信息增益越大,表明这类特征越好,信息增益公式 = 信息熵 — 条件熵;这是因为随       机森林这些特点,使得它不容易陷入过拟合(何为过拟合:就是训练样本集分类效果好,但是到了测试集时,         分类效果很差。)

       PS:欢迎批评交流!!!


        
    
               
                   
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值