视频网址:
https://space.bilibili.com/448533050?spm_id_from=333.788.b_765f7570696e666f.1
https://www.bilibili.com/video/av63392363/?p=44
课程学习第二天:
一、分类算法-K近邻算法
定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则这样本也属于这个类别。
评估依据:目标值是离散型
优点:理解简单,易于实现
缺点:1、性能问题,不适合用在大量数据集 2、必须指定K值,K值选择不当则分类精度不能保证
数据的处理:标准化
二、分类算法-朴素贝叶斯算法
1、概率基础
2、朴素贝叶斯介绍
(1)条件:条件独立,才能叫朴素贝叶斯
(2)贝叶斯公式(理解就行):
(3)优点:准确率比较高、对缺失数据不太敏感,算法也比较简单,常用于文本分类、理论基础是概率
缺点:条件独立、历史数据的准确性
(4)数据的处理:文本的特征抽取
三、决策树
1、信息论(理解):
信息熵
信息增益:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
信息熵的大小变化是和不确定性相关
2、分类依据
(1)信息增益 最大的准则
(2)信息增益比 最大的准则
(3)基尼系数 最小的准则,在sklearn中可以选择划分的原则
3、优点:准确率高、适用于各种数据、可解释性抢
缺点:容易过拟合 (树的建立太深)
四、随机森林
1、一种集成学习方法 多个同样的分类器组成,由多个决策树组成
2、建立过程:
3、优点:准确率高、不会过拟合、对大数据集适用、能够处理具有高维特征的输入样本,而且不需要降维
超参数:树的深度、多少颗树
课程学习第三天:
一、过拟合与欠拟合
过拟合:一个假设在训练数据上能获得比其他假设更好的拟合,但是在训练数据外地数据集上却不能很好的拟合数据。此时认为这个假设出现了过拟合的现象。(模型过于复杂)
原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾,各个测试数据点
解决办法:进行特征选择,消除关联性大的特征(很难做)、交叉验证(让所有的数据都有过训练)、正则化(了解就行)
欠拟合:一个假设在训练数据上不能获得更好的拟合,但是在训练数据外的数据集上也不能很好的拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)
原因:学习到数据的特征过少
解决办法:增加数据的特征数
二、K-means算法
一、简介:
1、k-means算法是一种无监督学习算法,所谓无监督学习,就是输入样本中只有x,没有y,即只有特征,没有标签,通过这些特征对数据进行整合等操作。k-menas算法属于聚类算法,所谓聚类算法就是根据特征上的相似,把数据聚集在一起或者是分成几类。
2、k-means算法基本思路(步骤):
1)随机设置K个特征空间内的点作为初始的聚类中心
2)对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类 中心点作为标记类别
3)接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
4)如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行 第二步过程