说明:斜体为R语言代码
01数据准备:下载数据集
在进行线性回归模拟之前,我们需先准备具有线性关系的数据集。
这里以机械工业出版社出版出版的丘祐玮著的《数据科学:R语言实现 (数据科学与工程技术丛书)》中的房屋租赁数据集为例,数据下载网址为https:// raw. GitHubusercontent. com/ ywchiu/ rcookbook/ master/ chapter11/ house_ rental. csv。
从该网页下载的数据需转存到R语言可读取格式的文件中。这里我们以csv文件格式为例,进行介绍,将数据集存储为house_rental.csv。
注:以上网页数据若直接粘贴至excel文件再转存为csv文件时,不能分列粘贴,需要将数据按分隔符“,”分列,将每列数据存储在不同的列中。
或者可以关注后,在后台回复house_rental 获取分列存储的csv文件。
将上述文件存储在R的工作目录中,或者将R的工作目录设置为上述文件的存储路径。关于R工作目录的修改和查询见本公众号之前发布的文章:000 R工作目录
02读取csv文件
R读取csv文件的函数为 read.csv(‘文件名.csv’,header = TRUE)。
注:文件名需用英文单引号’’包围。
例:
> house
03用函数lm()拟合线性回归
函数lm()的使用形式为:lm(因变量~自变量, data)。
回归模型函数lm()可以响应~变量的形式。
例:拟合house_rental数据集中Price与Sqft变量的关系,其中Sqft为自变量,