Python深度学习之机器学习基础

Rong_Gong

已于 2022-07-25 14:50:15 修改

阅读量458

点赞数

分类专栏：深度学习基础文章标签：深度学习机器学习 python

于 2022-07-25 14:46:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rong_Gong/article/details/125974327

版权

深度学习基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python深度学习之机器学习基础

一、前言

本文记录弗朗索瓦·肖莱的《Python深度学习》第四章机器学习基础有关笔记。

二、笔记

2.1机器学习的四个分支

监督学习

序列生成(sequence generation)
语法树预测(syntax tree prediction)
目标检测(object detection)
图像分割(image segmentation)
无监督学习

降维(dimensionality)和聚类(clustering)都是无监督学习方法。
自监督学习

自编码器(autoencoder)
强化学习

2.2评估机器学习模型

(1)训练集、验证集、测试集
(2)经典的评估方法

留出验证(hold-out validation)
K折验证(K-fold validation)
带有打乱数据的重复K 折验证(iterated K-fold validation with shuffling)

在这里插入图片描述

2.3评估模型的注意事项

在这里插入图片描述

2.4数据预处理、特征工程和特征学习

向量化
标准化
处理缺失值
特征提取

在这里插入图片描述

2.5过度拟合与欠拟合

机器学习的根本问题是优化和泛化之间的对立。
优化（optimization是指调节模型以在训练数据上得到最佳性能（即机器学习中的学习）。

泛化（generalization是指训练好的模型在前所未见的数据上的性能好坏。机器学习的目的当然是得到良好的泛化，但你无法控制泛化，只能基于训练数据调节模型。

训练开始时，优化和泛化是相关的：训练数据上的损失越小，测试数据上的损失也越小。这时的模型是欠拟合（underfit）的，即仍有改进的空间，网络还没有对训练数据中所有相关模式建模。但在训练数据上迭代一定次数之后，泛化不再提高，验证指标先是不变，然后开始变差，
即模型开始过拟合。这时模型开始学习仅和训练数据有关的模式，但这种模式对新数据来说是错误的或无关紧要的。
为了防止模型从训练数据中学到错误或无关紧要的模式，最优解决方法是获取更多的训练数据。模型的训练数据越多，泛化能力自然也越好。如果无法获取更多数据，次优解决方法是调节模型允许存储的信息量，或对模型允许存储的信息加以约束。如果一个网络只能记住几个模式，那么优化过程会迫使模型集中学习最重要的模式，这样更可能得到良好的泛化。
这种降低过拟合的方法叫作正则化（regularization）。

减小网络大小
添加权重正则化
L1正则化
L2正则化
dropout 正则化

2.6机器学习的通用工作流程

定义问题，收集数据集
选择衡量成功的指标
确定评估方法
准备数据
开发比基准更好的模型
扩大模型规模：开发过拟合的模型
模型正则化与调节超参数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python深度学习之机器学习基础

本文记录弗朗索瓦·肖莱的《Python深度学习》第四章机器学习基础有关笔记。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。