- 博客(8)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 线性模型-局部加权线性回归 机器学习实战
局部加权线性回归线性回归的一个问题是有可能出现欠拟合,因为它求的是具有最小均方误差的无偏估计,显然模型欠拟合将无法做出很好的回归预测,所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。局部线性加权的思想是对待预测点附近的每个点赋予一个权重,然后在带权的样本上基于最小均方误差来进行回归.普通线性回归:......
2018-05-23 17:30:41 4260
原创 线性模型-线性回归与实现 西瓜书
线性模型给定d个属性描述的实例x = (x1,x2,...,xd),其中xi是x在第i个属性上的取值,线性模型想要学得一个通过属性的线性组合来进行预测的函数,即: 一般写成向量模型: .........
2018-05-23 11:27:30 1850 4
原创 快速排序-提取排序索引 算法
引言上篇文章的运行结果会返回一个特征重要性列表,表示了一个预测分类问题中,各变量对分类的贡献程度,为了方便,我们需要将重要性排序,从而直观看的哪些是重要的特征,哪些是不重要的,其次,为了提高效率,有时我们需要的是特征对应的索引,而不是特征具体的值,例如我们需要首先知道是几号特征最重要,其次才需要知道它的重要性占比是多少,所以这篇文章主要介绍排序算法和返回索引.回顾[ 0.01711044 0.0......
2018-05-19 14:19:46 2532 1
原创 集成学习-随机森林原理与实现 西瓜书
多样性增强在讲随机森林之前,先讨论一下多样性增强.在集成学习中需要有效的生成多样性大的个体学习器,与构造单一学习器对比而言,一般是通过在学习过程中引入随机性,常见的做法是对数据样本,输入属性,输出表示,算法参数进行扰动.1)数据样本扰动给定初始数据集,可从中产生生不同的数据子集,再利用不同的数据子集训练出不同的个体学习器.数据样本扰动是基于采样法,例如Bagging采用自助法采样,,对很多的常见基.........
2018-05-18 14:33:47 2297 2
原创 集成学习-Bagging原理与实现 西瓜书
Bagging简介Bagging是并行式集成学习的最著名代表,名字是由Bootstrap AGGregatING缩写而来,看到Bootstrap我们就会联想到boostrap的随机模拟法和它对应的样本获取方式,它是基于自助采样法(Boostrap sampleing),Bagging也是同理.给定包含m个样本的数据集,先随机抽取一个样本放入采样集中,再把该样本放回,使得下次采样时该样本仍有机会被选.........
2018-05-14 14:50:59 8871 4
原创 集成学习-AdaBoost实现 机器学习实战
AdaBoost实现前两篇文章针对AdaBoost的伪代码实现步骤进行了讨论,也对关键步骤的更新方法进行了推导,脑海里已经基本有了整体框架,有了基本框架,代码的含义就清晰易懂了,下面看看AdaBoost是如何串行生成一系列基学习器的.导入数据from numpy import *import matplotlib.pyplot as pltdef loadSimpData():#二维数据点,.........
2018-05-12 11:58:38 974
原创 集成学习-AdaBoost更新准则推导 西瓜书
1.损失函数上一篇文章简单介绍了集成学习和弱学习器的理论概率,最后给出了AdaBoost的伪代码与实现步骤,思路比较清晰,这篇文章主要针对分类器的重要性α与分布权重Dt的更新规则进行推导.推导之前先看一下常见的损失函数(损失函数在SVM(3)里介绍过,这里只给出损失函数形式):.........
2018-05-11 14:32:58 2227
原创 集成学习-弱分类器与AdaBoost简介 西瓜书
1.集成学习现实情景中,一个学习器的泛化性能可能有局限,而集成学习则可以通过构造多个学习器来完成学习任务,有时也被称为多分类器系统,集成学习的大致步骤是先生成一组‘个体学习器’,然后基于某种策略将学习器结合起来,个体学习器同昌由现有的算法从训练数据产生,最常用的是决策树,还有神经网络1,支持向量机等。根据集成学习中分类器的类别来看,如果集成学习器中的个体学习器都是相同的,则称为‘同质’集成,对应的.........
2018-05-10 17:27:20 9577 4
Scala areOnJava8() 代码形式
2022-07-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人