![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
文章平均质量分 76
码灵薯
赖得住寂寞才守得住繁华,该奋斗的年纪就不应该选择安逸。
勤学下工夫,求得真学问,修德重实践,明辨善决断,笃实做人事。
展开
-
window caffe 安装及相关问题解决
本人的配置win10VS2013CUDA10.1cudnn7.6python2.7.15(Anaconda2)虽然caffe的安装比较复杂,有人戏称安装caffe要10元一次,调试一层网络只有5块。但是网上安装caffe的教程,随便一搜索就是一大把,安装过程基本都一样没什么可说的。这里主要记录安装过程遇到的问题。安装caffe参考博客官方Caffe-windows 配置与示例运...原创 2020-03-21 22:02:28 · 212 阅读 · 0 评论 -
随机森林sklearn FandomForest,及其调参
随机森林概述随机森林是集成学习方法bagging类中的翘楚。与集成学习boosting类的GBDT分庭抗礼。bagging类集成学习采用的方法是:用部分数据 or 部分特征 or 多个算法 训练一些模型;然后再组合这些模型,对于分类问题采用投票多数表决,回归问题采用求平均。各个模型训练之间互不影响,天生就适合并行化处理。在如今大数据时代背景下很有诱惑力。 主要效果:重点关注降低方差,...原创 2018-03-14 18:30:04 · 22592 阅读 · 4 评论 -
sklearn 中Gradient Boosting Machine(GBM)调参方法
原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对:@酒酒Angie(drmr_anki@qq.com) && 寒小阳(hanxiaoyang.ml@gmail.com) 时间:2016年9月。 出处:http://blo...转载 2018-03-14 22:44:17 · 6787 阅读 · 0 评论 -
机器学习中的非平衡分类问题
数据非平衡问题(in-balance) 很多应用中,正负样本是非均衡的,大多数对模型对正负样本比例是敏感的。对训练数据要尽可能的调整至平衡,对分类性能评估也要注意采用特定的方法。改造分类器的训练数据 —— 过抽样或者欠抽样具体来说,正负样本失衡的处理方法如下:负样本 >> 正样本,且量都挺大: 对负样本 欠采样undersampling负样本 >> 正...原创 2018-03-16 12:05:12 · 472 阅读 · 0 评论 -
交叉验证(cross validation)
交叉验证(cross validation)交叉验证是经常使用的模型性能评估方法,从而进行模型选择。对不同的模型参数进行训练得到的模型也不一样,所有交叉验证也可以用于模型参数选择。当数据集充足时,进行模型选择的一种简单的方法是,将数据集分成三部分:训练集(train set),验证集(validation set),测试集(test set)。训练集用于训练模型,验证集用于选择模型,测试集...原创 2018-03-13 17:19:21 · 946 阅读 · 0 评论 -
sklearn-GridSearchCV调节超参数
sklearn-GridSearchCV调节超参数同样的模型不同的参数下,模型的得分差距很大。sklearn中提供了参数调节函数:GridSearchCV。将待挑选的参数输入,可以自动的挑选最佳的参数和结果。 缺陷: 一旦模型的量级上去之后,将需要很长的时间函数才能运行完成。因为该函数执行一次所训练和测试的次数为:优化参数组合数*K(K折交叉验证)。当数据集很大时,多次反复训练模型将非...原创 2018-03-13 18:27:37 · 1889 阅读 · 0 评论 -
学习曲线(learning curve)来判断模型状态:过拟合欠拟合
学习曲线(learning curve)来判断模型状态:过拟合欠拟合学习曲线是什么学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标,训练和交叉验证集上的得分(如准确率)为纵坐标。learning curve可以帮助我们判断模型现在所处的状态:过拟合(overfiting / high variance) or 欠拟合(underfitting / ...原创 2018-03-13 21:52:41 · 16915 阅读 · 2 评论 -
模型欠拟合和过拟合解决办法
欠拟合(underfiting / high bias)训练误差和验证误差都很大,这种情况称为欠拟合。出现欠拟合的原因是模型尚未学习到数据的真实结构。因此,模拟在训练集和验证集上的性能都很差。解决办法做特征工程,添加跟多的特征项。如果欠拟合是由于特征项不够,没有足够的信息支持模型做判断。增加模型复杂度。如果模型太简单,不能够应对复杂的任务。可以使用更复杂的模型,减小正则化系...原创 2018-03-14 12:06:03 · 6667 阅读 · 1 评论 -
缺失值处理
缺失的类型完全随机型随机型非随机型缺失值处理方法:删除记录,数据补齐,不处理删除缺失数据量相对于整个数据集来说较少时,可以直接删除包含缺失值的记录。 缺点:丢失了部分信息数据补齐均值,众数,中位数,用新的类型填充 用数据拟合:K近邻,K_means, 回归,EM C4.5数据补齐以主观估计值补充缺失值,不一定符合事实。 不处理有...原创 2018-03-22 11:21:30 · 749 阅读 · 0 评论