1、本次案例概述(案例描述、代码地址)
获取近几年汽车行业总体数据,并对其进行一定整理。重点分析燃油使用率(MPG),发动机类型(cylinder)、传动类型(Trany)、排量(displ)供应商以及其相互之间的关系,来发现近年来汽车生产销售的趋势或规律。
代码展示:
代码下载:https://github.com/HelloMrChen/DataScienceCookbook/tree/master/R-01-carDataVisualization
#install.packages("plyr")
library(plyr)
#install.packages("ggplot2")
#install.packages("reshape2")
library(ggplot2)
library(reshape2)
#cmd+shift+c 注释快捷键
#将文件夹拖进终端中即可
setwd("/Users/gavinchen/我的文档/MBA养成记/2-自我提升/2-数据分析/程序练习/数据科学实战手册/R-01-carDataVisualization")
vehicles<-read.csv("Data/vehicles.csv") #由于设置了工作目录,直接写下一层目录Data即可
head(vehicles)
#给csv中的变量贴上标签
#这里的空格很重要,防止无拆分连续的字符串,这用到了readline、strsplit、docall、rbind
labels<-do.call(rbind,strsplit(readLines("Data/varlabels.txt")," - "))
#------数据准备及查看详情
summary(vehicles)
nrow(vehicles)
ncol(vehicles)
names(vehicles)
length(unique(vehicles[,"year"]))
vehicles[,"year"] #取数据框中的某一列
length(unique(vehicles$year))
min_year=min(vehicles[,"year"])
max_year=max(vehicles[,"year"])
table(vehicles$fuelType1)
#按条件筛选某列并将汽传动类型的空值赋值为NA
vehicles$trany[vehicles$trany==""]<-NA
length(vehicles$trany[vehicles$trany==""]<-NA)
vehicles$trany2<-ifelse(substr(vehicles$trany,1,4)=="Auto","Auto","Manual")
vehicles$trany2<-as.factor(vehicles$trany2) #设置为新变量为因子类型
table(vehicles$trany2)
with(vehicles,table(sCharger,year))
#-----------画图描述相关业务
#一、查看近几年来所有汽车每加仑汽油能行驶的公里数 趋势
#ddply可以将数据集按照制定函数进行计算并且赋给新数据框
#参数1 数据集,2 分类变量
mpgByYr<-ddply(vehicles,~year,summarise,avgMPG&