机器学习(二）

最新推荐文章于 2024-05-02 21:46:15 发布

uu（小九）

最新推荐文章于 2024-05-02 21:46:15 发布

阅读量122

点赞数

分类专栏：机械学习

本文链接：https://blog.csdn.net/qq_47466025/article/details/115174476

版权

机械学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了机器学习中的关键概念，包括朴素贝叶斯算法、信息熵、精确率和召回率的定义及其应用。讨论了线性回归的过拟合与欠拟合问题，以及解决策略。还涉及逻辑回归和非监督学习中的k-means聚类算法，阐述其工作原理和应用场景。

摘要由CSDN通过智能技术生成

朴素贝叶斯

朴素贝叶斯-预测建模算法(理想化）-条件概率
贝叶斯原理-数学基础
贝叶斯分类-模型 P(C|A1A2A3)=P(A1A2A3|C)·P©/P(A1A2A3）
朴素贝叶斯-具体方法<对缺失数据不敏感>
用途：主要用于文本分类、情感预测、推荐系统、垃圾文本过滤等。
对应到贝叶斯案例

信息熵

信息熵：通俗点来说，信息熵类似于一个人的所拥有的选择权力，当他有只有应该选择的时候的时候，他的信息熵就低，但是当他拥有更多的选择的时候他的信息熵就更加大
在这里插入图片描述

精确率和召回率

精确率：所有"正确被检索的item(TP)"占所有"实际被检索到的(TP+FP)"的比例.

召回率："正确被检索的item(TP)"占所有"应该检索到的item(TP+FN)"的比例。

线性回归

线性回归：线性关系数据。
拟合：达到预期的效果
欠拟合（underfitting)：无法达到预期的效果（模型过于简单）。
解决欠拟合的方法：优化模型，增加数据的特征数量。
过拟合(overfitthing)：训练集的效果好，但测试集的效果不怎么好。
解决过拟合的方法：增大数据量，正则化（L1,L2），丢弃法Dropout。
在这里插入图片描述

根据现象判断过拟合，欠拟合

欠拟合：交叉验证：训练集结果：表现不行，测试集：表现不行。

过拟合：训练集99% 测试机89%。

正则化
L2正则化：减少权重：趋近于0.尽量减少高次项特征的影响。
线性回归：LinearRegression 容易出现过拟合
L2正则化：Ridge：岭回归带有正则化的线性回归解决过拟合。
sklearn.linear_model.Ridege(alpha=1.0):具有L2正则化的线性最小二乘法
alpha：正则化力度
力度大，权重小
alpha(0₁₎₍₁10)

岭回归得到的回归系数更符合实际，更可靠

模型的保存和下载(from sklearn.externals import joblib)：
joblib.dump( ,"./当前目录/test.pkl")
estimator = joblib.load('test.pkl")

逻辑回归

分类-逻辑回归
逻辑回归：线性回归的式子做逻辑回归的输入
二分类

sigmoid 概率值通过梯度下降

损失函数：1.均方误差（不存在多个局部最低点）只有一个最小值
2.对似然数损失（多个局部最小值）目前解决不了 1.多次随机初始化，多次比较最小值结果 2.调整学习率。
尽管没有全局最低点但是效果都是不错的

logisticRegression回归预测

非监督学习

方法：k-means
原理：聚类
运用：1.随机在数据当中抽取三个样本，当作三个类别的中心点
2.计算其余的点到这三个中心点的距离，从中选距离最近的点作为自己的自己的标记，形成三个族群
3.分别计算这三个族群的平均值，把三个平均值与之前的三个旧中心点进行比较，相同：结束聚类。不同：把这三个平均值当作新的中心点，重复第二步
聚类在分类之前。
聚类评估标准：轮廓系数
在这里插入图片描述