本次详解boxplot原理,同时需要使用到《机械学习与R语言》中的数据包‘usedcars.csv’。可以到网上自行搜索下载or到我github里下载:https://github.com/HAI2018/MLwR/ 到第二版第二章,点进usedcars.csv -> 再点击 raw -> 右键另存为
Boxplot一直都是我们对数据异常点观测的一个简单且直接有效的方式,虽然它并不能详细告诉我们哪些点是异常点以及异常点的详细数据。 但是boxplot却总能让我们很直观地了解数值变量的中心和分散程度。如下例所示:
读取usedcars.csv文档后,我们尝试画一下boxplot:
usedcars <- read.csv("usedcars.csv", stringsAsFactors = FALSE)
boxplot(usedcars$price, main="Boxplot of Used Car Prices",
ylab="Price ($)", las=T)
画出的是price的boxplot图:
大家都知道,从下到上分别是MIN,Q1, MEDIAN,