快速了解——交叉验证和网格搜索以及损失函数

最新推荐文章于 2024-07-24 18:03:41 发布

小林打怪中

最新推荐文章于 2024-07-24 18:03:41 发布

阅读量1.2k

点赞数 32

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linxinyide/article/details/135513180

版权

本文介绍了如何通过交叉验证调整KNN模型的超参数，如K值和距离度量方式，以及使用网格搜索寻找最佳参数组合。同时，详细讲解了线性回归的损失函数和优化方法，包括梯度下降法和求解方程法，如SGD和正规方程法。

摘要由CSDN通过智能技术生成

一、交叉验证和网格搜索

目的：调整超参数

对于KNN来说，可以调整的参数包括

K：邻居的个数

P：距离度量方式

1、交叉验证

概述：训练数据划分为 训练集、验证集

stratify：分层划分，stratify = y 保证训练集、测试集一致

（当数据中一个类别数量很多，一个很小，要设置这个参数）

2、网格搜索

概述：遍历所有参数组合，训练模型，找最佳参数组合

每一个参数组合，都会计算cv次，每次的评估指标计算平均值，通过指标平均值来判断哪组参数最好

3、API

1. 导包

from sklearn.model_selection import GridSearchCV

GridSearchCV：交叉验证

2. 创建K近邻模型对象

knn_estimator = KNeighborsClassifier(n_neighbors = 3)

n_neighbors：KNN中k的取值

param_grid_ = { ' n_neighbors ' ：[ 2，3，4，5，6 ]，' p ' ：[1，2]，' weights ' ：[ ' uniform '，' distance ' ] }

p：1曼哈顿距离，2欧氏距离

weights：投票时的权重

uniform：平权投票（默认），所有的样本权重都一样

distance：加权投票，考虑距离的倒数作为权重

grid_estimator = GridSearchCV(estimator = knn_estimator，param_grid = param_grid_，cv = 4)
cv = 4：把训练集划分成4份，3份用来训练，1份用来验证

3. 训练模型

grid_estimator.fit(x_train_scaled，y_train)

4. 预测分类

y_train_pred=grid_estimator.predict(x_train_scaled)

y_test_pred=grid_estimator.predict(x_test_scaled)

5. 模型评估

交叉验证网格搜索的全部过程，每组验证集的评价结果：

                grid_estimator.cv_results_

        最佳分数：grid_estimator.best_score_

        最佳的参数组合：grid_estimator.best_params_

        最佳的分类器：grid_estimator.best_estimator_

二、线性回归

概述：利用回归方程对特征值和目标值的关系建模的分析方法

导包：from sklearn.linear_model import LinearRegression

创建线性回归对象：estimator = LinearRegression( )

求解的基本思路：构造假设函数：y = kx + b

确定损失函数

1、损失函数

概述：也称为代价、成本、目标函数，衡量每个样本预测值与真实值效果的函数

种类：

1. 均方误差（MSE）：Mean Square Error，越小，模型预测越准确

n 为样本数量，y 为实际值，y ̂ 为预测值

导包：from sklearn.metrics import mean_squared_error

调用：mean_squared_error(y_test，y_predict)

2. 平均绝对误差（MAE）：Mean Absolute Error 对误差大小不敏感

导包：from sklearn.metrics import mean_absolute_error

调用：mean_absolute_error(y_test，y_predict)

3. 均方根误差（RMSE）：Root Mean Squared Error 对异常点更加敏感，RMSE 是

MSE 的平方根，某些情况下比MSE更有用

tips：如果RMSE指标训练的非常低，说明模型对异常点（对噪声）也拟合的非常好，容易过拟合

2、优化方法

1. 梯度下降法

梯度：（矢量）梯度的方向就是上升最快的方向；单变量函数，梯度为某一点切线斜率，有

方向为函数增长最快的方向；多变量函数，梯度为某一点的 偏导数，有方向，偏导

数分量的向量方向

步长（学习率）：在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度；

太小，下降速度会慢；太大，容易错过最低点、产生下降过程中的震荡、

甚至梯度爆炸

公式：w = w - a * 梯度

a：步长 w：权重

过程： 1、给定初始位置 W、步长（学习率）

2、计算该点当前的梯度的负方向

3、向负方向移动步长，更新W

4、重复2、3 直至收敛（两次差距小于指定的阈值，或者达到指定的迭代次数）

API：from sklearn.linear_model import SGDRegressor ( loss = "squared_loss"，

fit_intercept = True，learning_rate = 'constant'，eta0 = 0.01)

loss：损失函数类型

learning_rate：学习率策略

eta0：学习率的值

学习率不断变小策略： ‘ invscaling ’ ：eta = eta0 / pow(t, power_t = 0.25)

分类：

全梯度下降算法 FGD：更新权重时，使用全部样本，训练速度较慢

随机梯度下降算法 SGD：每轮随机挑一个样本，简单、高效、不稳定，遇到噪声容易陷入局

部最优解

小批量 梯度下降算法 mini-bantch：每轮随机挑一小批样本，结合了 SG 和 FG，最常用

随机平均 梯度下降算法 SAG：每轮随机挑一个样本并记录，下一轮再挑一个，并计算两个梯

度的平均值，初期表现不佳

2. 求方程法（求导、求偏导）

正规方程：只对线性回归有用，不是所有的矩阵都有逆矩阵

公式：

API：from sklearn.linear_model import LinearRegression ( fit_intercept = True )

fit_intercept：是否计算偏置

estimator = LinearRegression( )

查看属性：

模型的权重系数，回归系数（斜率）：estimator.coef_

偏置，截距：estimator.intercept_

小林打怪中

关注

32
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小林打怪中 CSDN认证博客专家 CSDN认证企业博客

码龄1年

25: 原创

117万+: 周排名

18万+: 总排名

2万+: 访问

: 等级

786: 积分

511: 粉丝

524: 获赞

17: 评论

322: 收藏

私信

关注

热门文章

分类专栏

Python 13篇
知识点笔记 1篇

最新评论

神经网络基础——激活函数的选择、参数初始化
CX330的烟花: 很清楚内容简明，方便理解
聚类算法（KMeans）模型评估方法（SSE、SC）及案例
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617966586。
速通——决策树（泰坦尼克号乘客生存预测案例）
CSDN-Ada助手: 恭喜你发布了第20篇博客！看了你的《速通——决策树（泰坦尼克号乘客生存预测案例）》，觉得你对决策树的理解和运用很深入，能够将理论知识与实际案例相结合，让读者更易于理解。希望你能继续保持创作的热情，可以考虑在将来的文章中加入一些实际应用案例，或者分享一些自己的实践经验，让读者更加受益。期待你的下一篇作品！
快速了解——逻辑回归及模型评估方法
m0_68949064: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文。
Seaborn——可视化的具体API应用
CSDN-Ada助手: 恭喜您撰写了第19篇博客！Seaborn的具体API应用确实是一个很有趣的话题，您在文章中对其进行了深入的探讨，让读者受益匪浅。希望您能继续保持创作的热情，可以考虑分享一些实际案例或者使用技巧，让读者更好地理解如何运用Seaborn进行数据可视化。期待您的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。