autobagging r语言_Bagging(R语言实现)—包外错误率,多样性测度

1.      Bagging

Bagging即套袋法,其算法过程如下:

从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)

每次使用一个训练集得到一个模型,k个训练集共得到k个模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)

对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同)

2.算法设计过程

1.

2.

2.1.    随机采样方法

样本总数150条(Iris数据集)

抽样方法是有放回随机抽样。对150个样本的数据集,进行150次又放回随机采样,这样得到具有和原样本空间同等大小的样本集。

这样操作

次,得到训练样本。33个用决策树C50,34个朴素贝叶斯,33个用KNN。

2.2.    模型评价方法

2.2.1.  包外错误率

由抽样方法可知,每次抽样大约有36.8%的数据未被抽到,这36.8%将作为包外数据

,包外错误率:

图 1 包外错误率

2.2.2.  成对多样性度量

a->两个个体学习器对同一条数据(h1=h2=Class),分类都与原数据集分类相同的总和

b->两个个体学习器对同一条数据(h1=class,h2!=Class)

c->两个个体学习器对同一条数据(h1!=class,h2=Class)

d->两个个体学习器对同一条数据(h1!=class,h2!=Class),分类都与原数据集分类都不相同的总和

K统计量

Q统计量

相关系数

不一致度量

表1两个分类器的分类结果组合情况

图2 多样性度量矩阵

2.3.    伪代码

输入:

,弱分类器迭代次数T=100,弱分类器B

输出:

  %集成学习器

过程:

for i to T

           %Bagging采样,总共T次

     %获得包外测试集

        %学习器训练得到个体学习器

  %包外错误率

end

for i to T

for j=i+1 to T

统计a,b,c,d

计算

  %多样性测度矩阵

end

end

3.附录

数据集简介:

表2 iris

sepal length

萼片长度

sepal width

萼片宽度

petal length

花瓣长度

petal width

花瓣宽度

Class

Iris-setosa -> 1

Iris-versicolor -> 2

Iris-virginica-> 3

R语言中的坑

第一次用R语言

例如

testData

将数据集导入之后 调用相关KNN NavieBayes等函数无法成功 原因是在导入的时候 数据集的class列 被自动转换成了整型(int)

tempTrain[,nc]

调用as.factor()将class转换为因子 就可解决

还有 代码重复利用率低的问题 在下一次更新代码之中 可以解决

感谢大家批评指正

R语言 ggplot2包

R语言  ggplot2包的学习   分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...

R语言-神经网络包RSNNS

code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...

R语言-Knitr包的详细使用说明

R语言-Knitr包的详细使用说明 by 扬眉剑 来自数盟[总舵] 群:321311420 1.相关资料 1:自动化报告-谢益辉 https://github.com/yihui/r-ninja/bl ...

R语言dplyr包初探

昨天学了一下R语言dplyr包,处理数据框还是很好用的.记录一下免得我忘记了... 先写一篇入门的,以后有空再写一篇详细的用法. #dplyr learning library(dplyr) #fil ...

R语言扩展包dplyr——数据清洗和整理

R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报  分类: R Programming(11)  ...

安装R语言的包的方法

安装R语言的包的方法: 1. 在线安装 在R的控制台,输入类似install.packages("TSA")  # 安装 TSA install.packages("TS ...

R语言常用包汇总

转载于:https://blog.csdn.net/sinat_26917383/article/details/50651464?locationNum=2&fps=1 一.一些函数包大汇总 ...

R语言扩展包dplyr笔记

引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...

R语言 arules包 apriori()函数中文帮助文档(中英文对照)

apriori(arules) apriori()所属R语言包:arules                                         Mining Associations w ...

随机推荐

Linux命令详解之–cd命令

cd命令是linux实际使用当中另一个非常重要的命令,本文就为大家介绍下Linux中cd命令的用法. 更多Linux命令详情请看:Linux命令速查手册 Linux cd命令用于切换当前工作目录至 d ...

关于myeclipse代码提示的一些问题

默认是  .xxx  输入点提示,要写注释 @xxx的时候怎么输入@后面有代码提示呢? Auto activation delay 是代码提示出现的速度  下面一行是出现代码提示的条件 我们在.后面加 ...

uva331 - Mapping the Swaps

Mapping the Swaps Sorting an array can be done by swapping certain pairs of adjacent entries in the ...

hibernate篇章五--Hibernage工作原理

Hibernage工作原理: 1.配置hibernate对象关系映射文件.启动服务器 2.服务器通过实例化Configuration对象,读取hibernate.cfg.xml文件的配置内容,并根据相 ...

用eval 动态编译代码

eval 有另外一种用法, 其参数是作为一个字串表达式, 而不是代码块.在运行时, 它将字串临时编译成代码并且执行. 这很易用, 但也很危险, 因为有可能会把具有危害性的代码放到字串里. foreac ...

python 内存泄露的诊断 - 独立思考 - ITeye技术网站

python 内存泄露的诊断 - 独立思考 - ITeye技术网站 python 内存泄露的诊断 博客分类: 编程语言: Python Python多线程Blog.net  对于一个用 python ...

PLAN : 入门题目 ( update )

更新后 step 1 : A07, A11, A12,A14,A15,A18,A22,A24,A25,A26 A27,A29,A31,A32,A34,A59,A66,A69,A84,B24 B45,B ...

Git:一、简介&安装Git 2.20.1

0.Git官网 1.简介 一个分布式版本控制系统. 作用:自动记录每次文件的改动,还可以让同伴协作编辑. 分布式与集中式相比优点在于:版本库在每个人自己电脑上,不需要一直在网上,也不用担心某一个数据库 ...

Java使用RabbitMQ之整合Spring(生产者)

依赖包

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值