使用Rstudio读取yearly_sales.csv并进行练习。
yearly_sales.csv包含一万条数据,包含4个column:customer id, sales total, number of orders 和 gender.
练习1
# 设置路径
setwd("c:/Users/T7/Desktop/123")
# 读取数据
sales <- read.csv("./yearly_sales.csv")
# 检查导入的数据集
head(sales)
summary(sales)
# plot num_of_orders vs. sales图片
plot(sales$num_of_orders,sales$sales_total,
main="Number of Orders vs. Sales")
# 进行统计分析(拟合线性回归模型)
results <- lm(sales$sales_total ~ sales$num_of_orders)
results
summary(results)
# 对拟合的模型进行一些诊断
# 绘制残差直方图
hist(results$residuals, breaks = 800)
得到的图片一
图片二
练习2
数据的输入和输出
setwd("c:/Users/T7/Desktop/123")
sales <- read.csv("./yearly_sales.csv")
# 为每个订单的平均销售额添加一个列
sales$per_order <- sales$sales_total/sales$num_of_orders
# 以制表符分隔,不带行名的方式导出数据
write.table(sales,"sales_modified.txt", sep="\t",row.names=FALSE)
# 导出直方图到jpeg
jpeg(file="c:/Users/T7/Desktop/123/sales_hist.jpeg") # 创建一个新的jpeg文件
hist(sales$num_of_orders)# 导出直方图到jpeg
dev.off() # 关闭图形设备
在R中查看修改后的数据
在设置中路径中可以看到查看导出的数据。
sakes_hist.jepg
参考书目
- Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, EMC Education Services, John Wiley & Sons, 27 Jan. 2015