机器学习基础

最新推荐文章于 2024-01-10 15:07:33 发布

Lzj000lzj

最新推荐文章于 2024-01-10 15:07:33 发布

阅读量305

点赞数

分类专栏： ML 文章标签： ML

本文链接：https://blog.csdn.net/Lzj000lzj/article/details/95077988

版权

本文介绍了机器学习的基础知识，包括批量学习和在线学习的概念，特征选择与提取的重要性，正则化的角色，以及如何处理欠拟合。讨论了K折交叉验证、网格搜索和随机搜索等模型评估方法，同时讲解了方差与偏差的平衡。还涉及了梯度下降策略、早期停止法以及精度、召回率和F1分数的衡量。最后，文章提到了迁移学习的应用以及集成学习中的投票分类、bagging和随机森林等技术。

摘要由CSDN通过智能技术生成

批量学习（batch learning）和在线学习（online learning）

批量学习当模型训练之后就不再train，只用于test，当有新数据加入时，需要重新训练整个模型，这样的学习方式比较浪费时间和计算资源
在线学习将训练数据分为多个mini-batch ，每一步的训练代价较小
在线学习涉及到一个学习率的选取。学习率过大会导致模型忘记之前的训练数据，学习率过小会导致学习太慢，对新数据不敏感

特征选择与特征提取

特征选择是在已有的特征中选择有用的特征用于训练
特征提取根据原有的特征构建新的更有用的特征

正则化

正则化可以简化模型，避免过拟合
当我们的模型中有一个参数很大，但是我们知道这个参数虽然会使训练集结果很好，但是在测试集中国会导致过拟合，当控制这个参数较小时模型会表现的更好，所以我们可以对这个参数进行正则化。这样得到的模型比未加入正则化项的模型更简单，但是也比直接删去这个参数的模型复杂，在测试集中有更好的表现

欠拟合

解决方法：1.选择更复杂的模型进行训练 2.通过特征工程寻找更好的特征作为模型的输入3.正则化系数要较小

K折交叉验证

from sklearn.model_selection import cross_val_score 
scores = cross_val_score(模型, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10) 
rmse_scores = np.sqrt(-scores)
#交叉验证功能期望的是效用函数（越大越好）而不是损失函数（越低 越好），因此得分函数实际上与 MSE 相反（即负值），这就是为什么前面的代码在计算 平方根之前先计算 -scores 。

网格搜索

from sklearn.model_selection import GridSearchCV 
param_grid = [ {
   'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, {
   'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}, ] 
forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error') grid_search

最低0.47元/天解锁文章

Lzj000lzj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础

批量学习（batch learning）和在线学习（online learning）批量学习当模型训练之后就不再train，只用于test，当有新数据加入时，需要重新训练整个模型，这样的学习方式比较浪费时间和计算资源在线学习将训练数据分为多个mini-batch ，每一步的训练代价较小在线学习涉及到一个学习率的选取。学习率过大会导致模型忘记之前的训练数据，学习率过小会导致学习太慢，对新数据...
复制链接

扫一扫