tomatotian-CSDN博客

原创 Bagging和Boosting的思想

Bagging和Boosting的思想集成学习是通过构建并结合多个个体学习器来完成学习任务,个体学习学习器通常由一个现有的学习算法从训练数据产生,同质个体学习器的应用是最广泛的，一般常说的集成学习的方法都是指的同质个体学习器。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类第一类是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是boosting系列算法第...

2019-11-14 09:08:24 618

原创 Stacking和Blending的原理和各自的优劣

Stacking和blending的原理和各自的优劣网上通用的解释：Stacking是k折交叉验证，元模型的训练数据等同于基于模型的训练数据，该方法为每个样本都生成了元特征，每生成元特征的模型不一样（k是多少，每个模型的数量就是多少）；测试集生成元特征时，需要用到k（k fold不是模型）个加权平均；Blending 与Stacking大致相同，只是Blending的主要区别在于训练集不是通...

2019-11-14 09:07:58 2365

原创决策树相关

ID3算法的缺陷，为什么倾向特征选项较多的特征？ID3算法使用信息增益为准则来划分属性。信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。信息熵是信息论里面的概念，是信息的度量方式，不确定度越大或者说越混乱，熵就越大。在建立决策树的过程中，根据特征属性划分数据，使得原本“混乱”的数据的熵(混乱度)减少，按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划...

2019-11-13 09:01:51 397 1

原创 SVM损失函数

SVM损失函数支持向量机（SVM）是90 年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。这里说到的风险就是损失函数，下面让我们来一起了解以下SVM的损失函数。1.Hinge损失函数Hinge损失函数又称合页损失函数（hinge loss func...

2019-11-12 08:39:45 3819

原创向量的内积与外积

向量的内积与外积向量的内积已知两个非零向量a、b，那么|a||b|cosθ（θ是a与b的夹角）叫做a与b的数量积或内积。记作a·b。两个向量的数量积等于它们对应坐标的乘积的和。即：若a=(x1,y1),b=(x2,y2)，则a·b=x1·x2+y1·y2设a、b为非零向量，则①设e是单位向量，且e与a的夹角为θ，则e·a=a·e=|a||e|cosθ②a⊥b=a·b=0③当a与b同向时...

2019-11-12 08:39:25 4547

原创 cut和qcut的区别

cut和qcutpandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=‘raise’)pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise...

2019-11-11 08:55:09 884

原创离散化处理的原因及优势

离散化处理的原因及优势在机器学习中,我们在处理数据的时候,经常把连续性特征离散化,那么我们为什么要进行离散化处理,进行离散化处理的好处是什么？离散化处理的原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。离散化的目标是为了把连续性问题转化成计算机能够处理的离散性问题。数据离散化的原因主要有以下几点：1.算法需要例如决策树，Na...

2019-11-11 08:55:01 6326

原创变量的编码方式及特征归一化

变量的编码方式变量的编码方式之独热编码和标签编码机器学习中,有很多特征的数据不总是连续的,也有可能是离散型分类值, 大部分的模型都是基于数学运算，所以字串资料是无法运算的，需要我们对它们进行编码,常用的方式有独热编码(One-Hot Encoding)和标签编码(LabelEncoder)。离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue...

2019-11-11 08:54:42 689

原创机器学习三种估计函数与误差度量

机器学习三种估计函数与误差度量本文要对机器学习的三种估计函数：最大似然估计函数、最小二乘估计函数、最大后验估计函数展开讨论，最后再来讨论一下误差度量。三种估计函数在机器学习中，很多时候，一旦确定了模型的参数，那么模型就定下了，可以用来进行预测了。比如，最简单的线性回归算法，用一条直去拟合数据。回忆下初中数学，对于直线y = mx + c而言，一旦我们确定了m和c这两个参数，那么直线就定下来...

2019-11-08 08:39:03 2155

原创出现过拟合的原因及解决方案

出现过拟合的原因及解决方案机器学习需要我们利用模型对数据进行拟合，但并不是对训练集进行正确预测，而是对未曾在训练集合出现的样本能够正确预测。模型对训练集以外样本的预测能力就称为模型的泛化能力，过拟合与欠拟合就会导致模型泛化能力不高。首先看下列几张图第一个模型有许多错分的数据，不能很好的适应我们的训练集，属于欠拟合；第二个模型虽然有个别错误数据点，但是预测新数据效果很好；第三个模型是很复杂...

2019-11-06 23:38:04 6002

原创梯度下降算法

梯度下降算法梯度下降算法代数表达式推导

2019-11-06 23:37:34 175

原创机器学习1

首先什么叫做机器学习？为了解决任务T，设计一段程序，从经验E中学习，达到性能度量值P，当且仅当有了经验E后，经过P评判，程序在处理T时的性能得到提升。机器学习分为三类:有监督学习(回归、分类）、无监督学习（聚类、降维）、强化学习（有模型学习、免模型学习）。机器学习分类条件概率:事件A在事件B发生的条件下发生的概率。条件概率公式后验概率机器学习的流程：1.特征表示。2.选择...

2019-11-06 23:36:34 139

tomatotian的博客