2018年06月_qq_32799915

原创 8种应对机器学习数据集类别不平衡的策略

数据集类别不平衡通常发生在分类问题上，例如有两个类别（A,B）的数据集，A有80个，而B有20个，那么这个数据集是不平衡的。大多数数据集每一个类别通常不是完全的平衡，小的不平衡不会有太大的问题。但是当样本分布差距很大的时候，就会有很大的影响。严重的不平衡会导致训练的模型大概率会输出数量较多的那个类别，使模型具有很强的偏向性。 1.获取更多的数据这是一个最简单直接的办法，但往往数据并不是很容易获...

2018-06-21 09:31:11 3112

原创 keras图像增强

使用keras中的方法对图像进行增强，包括旋转，裁剪，灰度化，平移，仿射变换from PIL import Imageimport randomfrom keras.preprocessing.image import ( random_rotation, random_shift, random_shear, random_zoom, random_channel_shif...

2018-06-15 17:17:35 2719

原创 keras安装

anaconda 安装keras创建环境： conda create -n name python=3.6 (name为环境名称)激活环境：source activate py36安装keras : conda install keras第一次安装有问题，import keras时，程序直接崩掉，也没有任何错误，可能是依赖不全，删除重新装了一遍就好了。...

2018-06-13 12:46:41 1482

原创 python读取jpeg，png图片的区别

今天突然发现一个问题，将输出的图片保存，然后再读取，转换成array输出。保存格式：jpeg/png 同一张图片保存完再读取输出时两者输出不一样！目前还不清楚什么原因。...

2018-06-11 17:17:52 5680 2

原创迁移学习Transfer Learning

在迁移学习中，我们已有的知识叫做源域(source domain)，要学习的新知识叫目标域(target domain)。迁移学习研究如何把源域的知识迁移到目标域上。特别地，在机器学习领域中，迁移学习研究如何将已有模型应用到新的不同的、但是有一定关联的领域中。(a)传统机器学习对不同的学习任务建立不同的模型，(b)迁移学习利用源域中的数据将知识迁移到目标域，完成模型建立。迁移学习按照学习方式可以分...

2018-06-08 16:07:01 1492

原创 loss 为nan???

在训练的过程中经常会出现loss=NaN的情况，在网上查了查一般做法是减小学习速率或者增大batch_size。尝试了一下减小学习速率，可以解决问题。但是不明白为什么。所以整理了一下loss为nan的问题。现在依然不清楚为什么减小学习速率会解决这个问题，请各位不吝赐教。如果一开始loss就为nan, 可以考虑自己的输入是否有问题。参考：https://stackoverflow....

2018-06-07 17:27:28 26526 2

原创 10折交叉验证

将数据集划分成10个大小相似的互斥子集，轮流将其中一份做为测试集，其余作为训练集，用来检验模型的效果。用十次效果的平均值作为最终结果。防止出现过拟合现象。常用于数据量比较小的时候，使模型的准确率更有说服性。...

2018-06-07 15:12:49 3752

转载防止过拟合的方法

过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好，在测试集上效果差，模型泛化能力弱。算法为了满足尽可能复杂的任务，其模型的拟合能力一般远远高于问题复杂度，也就是说，算法有拟合出正确规则的前提下，进一步拟合噪声的能力。那么如何防止过拟合呢？1. 更多的数...

2018-06-07 11:31:38 646

原创报错：No module named model_selection

报错原因：sklearn版本较低查看版本>>> import sklearn>>> print(sklearn._version_)更新版本pip install -U sklearn

2018-06-04 17:54:09 588

qq_32799915的博客