R语言数据可视化-- boxplot 异常点选取原理讲解

本文介绍了R语言中boxplot用于数据异常点检测的原理。通过分析boxplot的构造,了解到异常点是根据Q1-1.5(Q3-Q1)和Q3+1.5(Q3-Q1)来确定的。通过IQR函数计算四分位距,并可以通过调整boxplot的参数来改变异常值的判断标准。展示如何通过设置参数隐藏或显示异常点。
摘要由CSDN通过智能技术生成
本次详解boxplot原理,同时需要使用到《机械学习与R语言》中的数据包‘usedcars.csv’。可以到网上自行搜索下载or到我github里下载:https://github.com/HAI2018/MLwR/   到第二版第二章,点进usedcars.csv -> 再点击 raw -> 右键另存为 

Boxplot一直都是我们对数据异常点观测的一个简单且直接有效的方式,虽然它并不能详细告诉我们哪些点是异常点以及异常点的详细数据。 但是boxplot却总能让我们很直观地了解数值变量的中心和分散程度。如下例所示:

读取usedcars.csv文档后,我们尝试画一下boxplot:

usedcars <- read.csv("usedcars.csv", stringsAsFactors = FALSE)
boxplot(usedcars$price, main="Boxplot of Used Car Prices",
        ylab="Price ($)", las=T)

画出的是price的boxplot图:


大家都知道,从下到上分别是MIN,Q1,  MEDIAN,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值