机器学习与深度学习部分基础

视频网址:

https://space.bilibili.com/448533050?spm_id_from=333.788.b_765f7570696e666f.1

https://www.bilibili.com/video/av63392363/?p=44

 

课程学习第二天:

一、分类算法-K近邻算法

       定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则这样本也属于这个类别。

       评估依据:目标值是离散型

        优点:理解简单,易于实现

        缺点:1、性能问题,不适合用在大量数据集  2、必须指定K值,K值选择不当则分类精度不能保证

        数据的处理:标准化

二、分类算法-朴素贝叶斯算法

         1、概率基础

         

         2、朴素贝叶斯介绍

              (1)条件:条件独立,才能叫朴素贝叶斯

              (2)贝叶斯公式(理解就行):

            

               (3)优点:准确率比较高、对缺失数据不太敏感,算法也比较简单,常用于文本分类、理论基础是概率

                        缺点:条件独立、历史数据的准确性

               (4)数据的处理:文本的特征抽取

 

三、决策树

1、信息论(理解):

       信息熵

      信息增益:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

          信息熵的大小变化是和不确定性相关

       2、分类依据

         (1)信息增益  最大的准则

         (2)信息增益比  最大的准则

         (3)基尼系数  最小的准则,在sklearn中可以选择划分的原则

      3、优点:准确率高、适用于各种数据、可解释性抢

            缺点:容易过拟合  (树的建立太深)

 

四、随机森林

   1、一种集成学习方法 多个同样的分类器组成,由多个决策树组成

   2、建立过程:

   3、优点:准确率高、不会过拟合、对大数据集适用、能够处理具有高维特征的输入样本,而且不需要降维

超参数:树的深度、多少颗树

 

课程学习第三天:

一、过拟合与欠拟合

过拟合:一个假设在训练数据上能获得比其他假设更好的拟合,但是在训练数据外地数据集上却不能很好的拟合数据。此时认为这个假设出现了过拟合的现象。(模型过于复杂)

原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾,各个测试数据点

解决办法:进行特征选择,消除关联性大的特征(很难做)、交叉验证(让所有的数据都有过训练)、正则化(了解就行)

欠拟合:一个假设在训练数据上不能获得更好的拟合,但是在训练数据外的数据集上也不能很好的拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

原因:学习到数据的特征过少

解决办法:增加数据的特征数

 

二、K-means算法

一、简介:

1、k-means算法是一种无监督学习算法,所谓无监督学习,就是输入样本中只有x,没有y,即只有特征,没有标签,通过这些特征对数据进行整合等操作。k-menas算法属于聚类算法,所谓聚类算法就是根据特征上的相似,把数据聚集在一起或者是分成几类。

2、k-means算法基本思路(步骤):

1)随机设置K个特征空间内的点作为初始的聚类中心

2)对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类 中心点作为标记类别

3)接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)

4)如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行 第二步过程

   

 

 

 

 

 

 

                   

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值