Machine Learning Yearning36~39

最新推荐文章于 2018-08-26 15:15:30 发布

sunyao_123

最新推荐文章于 2018-08-26 15:15:30 发布

阅读量136

点赞数

分类专栏：吴恩达笔记吴恩达笔记文章标签：吴恩达笔记

本文链接：https://blog.csdn.net/sunyao_123/article/details/82080750

版权

吴恩达笔记同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

吴恩达笔记

11 篇文章 0 订阅

订阅专栏

1.我们需要牢记的一点是，测试数据的分布一定要是我们期望的处理的数据的分布。所以如果期望的处理的数据有10000，而另一种分布的数据有200000，那么从210000里边分训练集和测试验证集是不合理的，因为这里边的验证集的分布大部分是第二种分布，并不是我们将来期望处理数据的分布。
但是由于我们能得到大量的数据，我们希望即使训练集和测试集分布不同，我们仍然能够利用这些信息。
我们假设验证集和测试集来自相同的分布。那我们的第一步是，5000分为验证测试集，205000为训练集。
2.如果将两种数据混合为训练集，对于早一些的算法，这种结果比不使用20000效果更加差。但是由于现在神经网络这么发达，这种坏的影响被大大削减了。只要我们的网络能力足够强，总有一种映射是对两种分布都适用的。也就是说，存在一种系统，即使输入的图像源是未知的，只要里边包含我们期望的分布的数据，那么网络就能够很好的预测。
增加额外的20000张图片，会有如下效果：1，网络能够利用20000图片里边提供的信息，对10000用户上传的图像。2，但是如果网络将它所有的能力用到了20000图片，而剩下的能力不足处理用户上传的10000张图片，那么这确实会对算法不利。因为这两种类型数据会竞争模型的capacity。
3.模型的capacity是有限的。所以扔掉无用的数据。那么什么是无用的数据。比如我们需要区分猫和狗，那么其它图像数据就是无用的。
4.那么在保证模型capacity的情况下，如何确定是否留下不同分布的数据一起作为训练数据。我们通过一致性来判断。那么什么是一致性？比如，不同地区的房价，我们想要预测A区的房价，但是我们还有B区的房价，不同的是，A区和B区的房价整体差距较大。这时，我们称AB两套数据是不连续的，因为我们不能给定x和f得到y，即不能得到f(x)，从x映射到y。但是从网络得到的猫的图片和用户上传的猫的图片可以通过同一个f(x)，将x映射到y，即是不是猫。
5.如果我们拿到的数据比我们测试的数据大很多，我们需要满足两点才能得到我们期望的输出：1，网络足够大；2，训练时间足够长。比如我们从网络得到200000张图片，而用户上传5000张，比率达到了40倍，这也许意味着我们需要比只拿5000进行训练多40倍的计算资源。如果我们没有这么多资源怎么办？一个折中的办法就是对网络图片一个低的权重。比如计算损失时，给网络图片的损失函数一个较小的权重。这种办法只在下边2种情况下才使用：1，额外的数据与测试数据分布相差很大；2，额外的数据量与测试数据量分布很大。

sunyao_123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning Yearning36~39

1.我们需要牢记的一点是，测试数据的分布一定要是我们期望的处理的数据的分布。所以如果期望的处理的数据有10000，而另一种分布的数据有200000，那么从210000里边分训练集和测试验证集是不合理的，因为这里边的验证集的分布大部分是第二种分布，并不是我们将来期望处理数据的分布。但是由于我们能得到大量的数据，我们希望即使训练集和测试集分布不同，我们仍然能够利用这些信息。我们假设验证集和测试...
复制链接

扫一扫

专栏目录