- 博客(9)
- 收藏
- 关注
原创 8种应对机器学习数据集类别不平衡的策略
数据集类别不平衡通常发生在分类问题上,例如有两个类别(A,B)的数据集,A有80个,而B有20个,那么这个数据集是不平衡的。大多数数据集每一个类别通常不是完全的平衡,小的不平衡不会有太大的问题。但是当样本分布差距很大的时候,就会有很大的影响。严重的不平衡会导致训练的模型大概率会输出数量较多的那个类别,使模型具有很强的偏向性。 1.获取更多的数据这是一个最简单直接的办法,但往往数据并不是很容易获...
2018-06-21 09:31:11 3112
原创 keras图像增强
使用keras中的方法对图像进行增强,包括 旋转,裁剪,灰度化,平移,仿射变换from PIL import Imageimport randomfrom keras.preprocessing.image import ( random_rotation, random_shift, random_shear, random_zoom, random_channel_shif...
2018-06-15 17:17:35 2719
原创 keras安装
anaconda 安装keras创建环境 : conda create -n name python=3.6 (name为环境名称)激活环境 :source activate py36安装keras : conda install keras第一次安装有问题,import keras时,程序直接崩掉,也没有任何错误,可能是依赖不全,删除重新装了一遍就好了。...
2018-06-13 12:46:41 1482
原创 python读取jpeg,png图片的区别
今天突然发现一个问题,将输出的图片保存,然后再读取,转换成array输出。保存格式:jpeg/png 同一张图片保存完再读取输出时 两者输出不一样!目前还不清楚什么原因。...
2018-06-11 17:17:52 5680 2
原创 迁移学习Transfer Learning
在迁移学习中,我们已有的知识叫做源域(source domain),要学习的新知识叫目标域(target domain)。迁移学习研究如何把源域的知识迁移到目标域上。特别地,在机器学习领域中,迁移学习研究如何将已有模型应用到新的不同的、但是有一定关联的领域中。(a)传统机器学习对不同的学习任务建立不同的模型,(b)迁移学习利用源域中的数据将知识迁移到目标域,完成模型建立。迁移学习按照学习方式可以分...
2018-06-08 16:07:01 1492
原创 loss 为nan???
在训练的过程中经常会出现loss=NaN的情况,在网上查了查一般做法是减小学习速率或者增大batch_size。尝试了一下减小学习速率,可以解决问题。但是不明白为什么。所以整理了一下loss为nan的问题。现在依然不清楚为什么减小学习速率会解决这个问题,请各位不吝赐教。如果一开始loss就为nan, 可以考虑自己的输入是否有问题。参考:https://stackoverflow....
2018-06-07 17:27:28 26526 2
原创 10折交叉验证
将数据集划分成10个大小相似的互斥子集,轮流将其中一份做为测试集,其余作为训练集,用来检验模型的效果。用十次效果的平均值作为最终结果。防止出现过拟合现象。常用于数据量比较小的时候,使模型的准确率更有说服性。...
2018-06-07 15:12:49 3752
转载 防止过拟合的方法
过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好,在测试集上效果差,模型泛化能力弱。算法为了满足尽可能复杂的任务,其模型的拟合能力一般远远高于问题复杂度,也就是说,算法有拟合出正确规则的前提下,进一步拟合噪声的能力。那么如何防止过拟合呢?1. 更多的数...
2018-06-07 11:31:38 646
原创 报错:No module named model_selection
报错原因:sklearn版本较低查看版本>>> import sklearn>>> print(sklearn._version_)更新版本pip install -U sklearn
2018-06-04 17:54:09 588
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人