2018年05月_BIT_666

原创线性模型-局部加权线性回归机器学习实战

局部加权线性回归线性回归的一个问题是有可能出现欠拟合，因为它求的是具有最小均方误差的无偏估计，显然模型欠拟合将无法做出很好的回归预测，所以有些方法允许在估计中引入一些偏差，从而降低预测的均方误差。局部线性加权的思想是对待预测点附近的每个点赋予一个权重，然后在带权的样本上基于最小均方误差来进行回归.普通线性回归：......

2018-05-23 17:30:41 4260

原创线性模型-线性回归与实现西瓜书

线性模型给定d个属性描述的实例x = (x1,x2,...,xd),其中xi是x在第i个属性上的取值，线性模型想要学得一个通过属性的线性组合来进行预测的函数，即：一般写成向量模型： .........

2018-05-23 11:27:30 1850 4

引言上篇文章的运行结果会返回一个特征重要性列表，表示了一个预测分类问题中，各变量对分类的贡献程度，为了方便，我们需要将重要性排序，从而直观看的哪些是重要的特征，哪些是不重要的，其次，为了提高效率，有时我们需要的是特征对应的索引，而不是特征具体的值，例如我们需要首先知道是几号特征最重要，其次才需要知道它的重要性占比是多少，所以这篇文章主要介绍排序算法和返回索引.回顾[ 0.01711044 0.0......

2018-05-19 14:19:46 2532 1

原创集成学习-随机森林原理与实现西瓜书

多样性增强在讲随机森林之前，先讨论一下多样性增强.在集成学习中需要有效的生成多样性大的个体学习器，与构造单一学习器对比而言，一般是通过在学习过程中引入随机性，常见的做法是对数据样本，输入属性，输出表示，算法参数进行扰动.1）数据样本扰动给定初始数据集，可从中产生生不同的数据子集，再利用不同的数据子集训练出不同的个体学习器.数据样本扰动是基于采样法，例如Bagging采用自助法采样，，对很多的常见基.........

2018-05-18 14:33:47 2297 2

原创集成学习-Bagging原理与实现西瓜书

Bagging简介Bagging是并行式集成学习的最著名代表，名字是由Bootstrap AGGregatING缩写而来，看到Bootstrap我们就会联想到boostrap的随机模拟法和它对应的样本获取方式，它是基于自助采样法（Boostrap sampleing），Bagging也是同理.给定包含m个样本的数据集，先随机抽取一个样本放入采样集中，再把该样本放回，使得下次采样时该样本仍有机会被选.........

2018-05-14 14:50:59 8871 4

原创集成学习-AdaBoost实现机器学习实战

AdaBoost实现前两篇文章针对AdaBoost的伪代码实现步骤进行了讨论，也对关键步骤的更新方法进行了推导，脑海里已经基本有了整体框架，有了基本框架，代码的含义就清晰易懂了，下面看看AdaBoost是如何串行生成一系列基学习器的.导入数据from numpy import *import matplotlib.pyplot as pltdef loadSimpData():#二维数据点，.........

2018-05-12 11:58:38 974

原创集成学习-AdaBoost更新准则推导西瓜书

1.损失函数上一篇文章简单介绍了集成学习和弱学习器的理论概率，最后给出了AdaBoost的伪代码与实现步骤，思路比较清晰，这篇文章主要针对分类器的重要性α与分布权重Dt的更新规则进行推导.推导之前先看一下常见的损失函数（损失函数在SVM（3）里介绍过，这里只给出损失函数形式）：.........

2018-05-11 14:32:58 2227

原创集成学习-弱分类器与AdaBoost简介西瓜书

1.集成学习现实情景中，一个学习器的泛化性能可能有局限，而集成学习则可以通过构造多个学习器来完成学习任务，有时也被称为多分类器系统，集成学习的大致步骤是先生成一组‘个体学习器’，然后基于某种策略将学习器结合起来，个体学习器同昌由现有的算法从训练数据产生，最常用的是决策树，还有神经网络1，支持向量机等。根据集成学习中分类器的类别来看，如果集成学习器中的个体学习器都是相同的，则称为‘同质’集成，对应的.........

2018-05-10 17:27:20 9577 4

BITDDD小栈