机器学习
文章平均质量分 80
brucewong0516
这个作者很懒,什么都没留下…
展开
-
【机器学习】Random Forests随机森林的基础及运用
随机森林的基础及运用原创 2017-11-28 17:12:34 · 5915 阅读 · 1 评论 -
【机器学习】史上最贴心最详细手把手教你Windows环境下安装XGBoost
Windows下安装python版的XGBoost(Anaconda)感谢博主们的辛勤付出,泡泡糖nana与Leo_Xu06的精彩博文,让我受益匪浅。XGBoost是近年来很受追捧的机器学习算法,由华盛顿大学的陈天奇提出,在国内外的很多大赛中取得很不错的名次,要具体了解该模型,可以移步官方文档,本文介绍其在Widows系统下基于Git的python版本的安装方法。需要用到三个软件:原创 2017-12-31 10:41:07 · 832 阅读 · 0 评论 -
【机器学习】卷积神经网络(CNN)模型结构
图像输入层,通过卷积层(Convolution Layer)进行运算,然后池化,这两个是CNN特有的,卷积层的激活函数使用的是ReLU,池化就是对原矩阵进行压缩,得到一个值。原创 2017-12-19 17:06:33 · 2675 阅读 · 0 评论 -
【机器学习】神经网络DNN的正则化
和普通的机器学习算法一样,DNN也会遇到过拟合的问题,需要考虑泛化,之前在【Keras】MLP多层感知机一文中提到了过拟合、欠拟合等处理方法的问题,正则化是常用的手段之一,这里我们就对DNN的正则化方法做一个总结。原创 2017-12-19 15:59:22 · 1780 阅读 · 0 评论 -
【机器学习】Bagging和Boosting基础及应用
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,即将弱分类器组装成强分类器的方法。原创 2017-11-28 16:43:12 · 3363 阅读 · 2 评论 -
【机器学习】GBDT梯度下降提升算法及参数寻优实例
GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了(**残差作为下一轮拟合的数据的理解**)。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。原创 2017-12-01 01:27:49 · 9470 阅读 · 2 评论 -
【TensorFlow】官方MNIST数据集神经网络实例详解(六)
根据MNIST数据实现完整的TensorFlow程序,构图逻辑是:先定义参数、接着定义神经网络模型,最后训练。原创 2017-12-12 21:57:00 · 3016 阅读 · 0 评论 -
【机器学习】基于sklearn-MLP多层感知机实例
在之前的【【深度学习】DNN神经网络模型】一文中弄清楚MLP基础由来,本次进一步基于sklearn机器学习库来实现该过程。原创 2017-12-15 23:22:18 · 18370 阅读 · 5 评论 -
【机器学习】交叉验证(cross-validation)
交叉验证(Cross validation),交叉验证用于防止模型过于复杂而引起的过拟合。有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力。原创 2017-12-06 21:15:17 · 7064 阅读 · 0 评论 -
【机器学习】Sklearn独热编码one hot 编码preprocessing.OneHotEncoder()使用
Sklearn独热编码one hot 编码,preprocessing.OneHotEncoder()使用原创 2017-12-14 17:21:07 · 5641 阅读 · 0 评论 -
【机器学习】scikit-learn朴素贝叶斯GaussianNB实例
在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。朴素贝叶斯很直观,计算量也不大。原创 2017-12-14 00:50:07 · 50943 阅读 · 0 评论 -
【机器学习】GBDT梯度提升算法调参法总结II
对于GBDT的参数调整,上一篇已经通过实例讲明,不过调整参数确实重要,继续总结一下通用套路。原创 2017-12-03 11:36:49 · 5724 阅读 · 0 评论 -
【机器学习】Sklearn 调试模型
sklearn调试模型,平衡过拟合和欠拟合,Grid search CV暴力寻找最优参数原创 2017-12-11 11:45:43 · 728 阅读 · 0 评论 -
【机器学习】Sklearn特征工程构建与优化
特征工程的构建与优化,处理缺失值以及归一化。原创 2017-12-10 21:04:55 · 570 阅读 · 0 评论 -
【机器学习】sklearn.metrics绩效指标实例
sklearn.metrics绩效指标度量中的评估方法实例的主要应用原创 2017-12-11 00:23:16 · 2948 阅读 · 0 评论 -
【机器学习】LDA线性判别分析原理及实例
LDA线性判别分析也是一种经典的降维方法,LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是投影后类内方差最小,类间方差最大。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心。原创 2017-12-01 11:37:56 · 14606 阅读 · 0 评论 -
【机器学习】Sklearn库主成分分析PCA降维的运用实战
PCA是一种线性映射(或线性变换),简单的来说就是将高维空间数据投影到低维空间上,那么在数据分析上,我们是将数据的主成分(包含信息量大的维度)保留下来,忽略掉对数据描述不重要的成分。即将主成分维度组成的向量空间作为低原创 2017-11-29 16:48:25 · 33545 阅读 · 15 评论 -
【机器学习】 使用sklearn中的joblib函数实现模型持久化保存以及提取
在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。scikit-learn已经有了模型持久化的操作,导入joblib即可from sklearn.externals import joblib1、joblib.dump模型保存from sklearn.externals impo...原创 2018-05-10 17:38:46 · 14794 阅读 · 3 评论