计算机视觉实践 - 街景字符编码识别/关于Task4的一些笔记

最新推荐文章于 2020-06-02 22:53:20 发布

fayeeenn

最新推荐文章于 2020-06-02 22:53:20 发布

阅读量240

点赞数

分类专栏： DeepLearning CV 文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/kongaiqin/article/details/106446552

版权

CV 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

DeepLearning

5 篇文章 0 订阅

订阅专栏

模型训练与验证

学习情况
模型验证方法
代码

学习情况

复习了一下机器学习中的模型验证方法，因为深度学习也是机器学习的分支，这一部分还是差不多的。
最近还在看CNN的结构、公式推理过程，发现高数线代又忘了…大学的知识难道真的不能靠刷题吗…

模型验证方法

留出法

这是比较简单粗暴的方法，之前传统机器学习分类的方法是“三七分”，就是训练集70%，验证集30%。
深度学习当中比较多用的是60%训练集，20%验证集，20%测试集。
当然这种方法就比较简单，缺点就是只有一份验证集，如果在这一份验证集上多次验证，那就会过拟合：就是你的模型已经能认出这些数据（比如说一群猫和狗）是什么（是不是猫）了，这个验证准确率是虚高的，你把模型放到一堆新的数据（一群新的猫狗）中，它还是认不出来。

交叉验证法

交叉验证法分为K折交叉验证和留一法交叉验证

K折交叉验证（K-fold Cross Validation）

K-Fold
就是分为K份，拿出1份当验证集，剩下的K-1份作为训练集。最后！模型的准确率是取所有验证集上的平均准确率。

留一法（leave-one-out cross validation）

这个方法我没懂!和上面的K-Fold有什么区别，网上博客的叙述是这样的：

如果设原始数据有N个样本，那么每个样本单独作为验证集，其余的N-1个样本作为训练集，所以LOO-CV会得到N个模型，用这N个模型最终的验证集的分类准确率的平均数作为此下LOO-CV分类器的性能指标。

或者这样的：

留一法就是每次只留下一个样本做测试集，其它样本做训练集，如果有k个样本，则需要训练k次，测试k次。
留一法计算最繁琐，但样本利用率最高。适合于小样本的情况。

这不还是跟上面的一样吗…

自助采样法（BootStrap）

BootStrap这个名字据说是从一个神话中引用的：一个男人落入水中，然后用自己的鞋带把自己拉上了岸。

通过有放回的采样方式得到新的训练集和验证集，每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况。

代码

之前机器学习中遇到的分类代码
留出法：

# 留出法
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2,
                                                    random_state=30)

K-Fold：

from sklearn.model_selection import KFold

kf = KFold(25, n_folds=5, shuffle=False)

25表示原始数据包含25，n_folds=5就是K的值，shuffle=False表示每个样本只在训练集中或者测试集中不会相互混合
留一法：

from sklearn.model_selection import LeaveOneOut

labels = LeaveOneOut(n=len(y)) # 这边label就是留出的样本数量

fayeeenn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录