机器学习
学习吴恩达《机器学习》的笔记,以及比赛等技巧
阿兵-AI医疗
这个作者很懒,什么都没留下…
展开
-
4.集成学习之3.Stacking
分层模型集成框架stacking(叠加算法)Stacking集成算法可以理解为一个两层的集成,第一层含有一个分类器,把预测的结果(元特征)提供给第二层, 而第二层的分类器通常是逻辑回归,他把一层分类器的结果当做特征做拟合输出预测结果。过程如下图:标准的Stacking,也叫Blending如下图:但是,标准的Stacking会导致信息泄露,所以推荐以下Satcking算法:1. 简单堆叠3折CV分类:## 1. 简单堆叠3折CV分类from sklearn import datasets原创 2020-09-19 17:24:39 · 1574 阅读 · 0 评论 -
4.集成学习之2.Boosting
基于boosting思想的自适应增强方法Adaboost最初的想法是由Robert E. Schapire在1990年提出的,这个想法叫做自适应增强方法。与Bagging相比,Boosting思想可以降低偏差。如更新权重如下图:我们用单一决策树建模:## 我们用单一决策树建模:from sklearn.ensemble import AdaBoostClassifiertree = DecisionTreeClassifier(criterion='entropy',random_state原创 2020-09-19 17:17:30 · 198 阅读 · 0 评论 -
4.集成学习之1.Bagging
基于bagging思想的套袋集成技术套袋方法是由柳.布莱曼在1994年的技术报告中首先提出并证明了套袋方法可以提高不稳定模型的准确度的同时降低过拟合的程度(可降低方差)。套袋方法的流程如下:注意:套袋方法与投票方法的不同:投票机制在训练每个分类器的时候都是用相同的全部样本,而Bagging方法则是使用全部样本的一个随机抽样,每个分类器都是使用不同的样本进行训练。其他都是跟投票方法一模一样!对训练集随机采样分别基于不同的样本集合训练n个弱分类器。对每个弱分类器输出预测结果,并投票(如下图)原创 2020-09-06 10:08:26 · 429 阅读 · 0 评论 -
4.集成学习之0.Voting
对比过kaggle比赛上面的top10的模型,除了深度学习以外的模型基本上都是集成学习的产物。集成学习可谓是上分大杀器,今天就跟大家分享在Kaggle或者阿里天池上面大杀四方的数据科学比赛利器—集成学习。什么是集成学习 正所谓“三个臭皮匠赛过诸葛亮”的道理,在机器学习数据挖掘的工程项目中,使用单一决策的弱分类器显然不是一个明智的选择,因为各种分类器在设计的时候都有自己的优势和缺点,也就是说每个分类器都有自己工作偏向,那集成学习就是平衡各个分类器的优缺点,使得我们的分类任务完成的更加优秀。 在.原创 2020-09-06 10:04:15 · 740 阅读 · 0 评论 -
4.模型评估之ROC和AUC
基本概念 ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线。ROC曲线的纵轴是“真正率”(True Positive Rate, TPR),横轴是“假正例率”(False Positive Rate, FPR)。TPR=TP/(TP+FN)FP...原创 2020-02-08 11:39:40 · 798 阅读 · 0 评论 -
4.特征选择
基本概念 对当前学习任务有用的特征称为“相关特征”(relevant feature);没有用的特征称为“无关特征”(irrelevant feature)。从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”(feature selection)…常用的特征选择方法大致可以分为:过滤式(fil...原创 2020-02-07 10:39:47 · 316 阅读 · 0 评论 -
1.决策树
基本概念 决策树(Decision Tree)是一种用来分类和回归的无参监督学习方法。其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。顾名思义,决策树是基于树结构进行决策的。决策过程中提出的每个判定问题都是对某个属性的“测试”。如下图所示。其基本流程遵循简单而直观的“分而治...原创 2020-02-06 14:17:43 · 651 阅读 · 1 评论 -
5.实战之参数调优
基本概念 在构建模型时,调参(超参数)是极为重要的一个步骤,因为只有选择最佳的参数才能构建一个最优的模型。但是应该如何确定参数的值呢?一般可以通过交叉验证的方法。什么是交叉验证?我K-折交叉验证为例。当K=2时,就是我们说的2-折交叉验证;当K=5时,就是5折-交叉验证。5-折交叉验证的原理,如下图所示...原创 2020-02-05 14:06:52 · 422 阅读 · 0 评论 -
高斯混合模型及EM算法
高斯混合模型GMM首先介绍高斯分布的概率密度函数。一维高斯分布的概率密度函数如下:多维变量X=(x1,x2,…xn)的联合概率密度函数为:这里引用李航《统计学习方法》书中的定义简而言之,GMM是多个高斯分布的加权和,并且权重α之和等于1 。Sklearnsklearn.mixture 是一个应用高斯混合模型进行非监督学习的包(支持 diagonal,spherical,tied,...原创 2019-10-07 17:35:19 · 643 阅读 · 0 评论 -
人工智能
人工智能原创 2019-07-22 13:24:39 · 365 阅读 · 0 评论