原始数据可以从本地文件,本地数据库和网络上获取。本地文件主要包括:txt文件,csv文件,excel文件,RData文件,xml文件。本地数据库类型包括SQL Server,Access,MySQL,SQLite等常见数据库。网络数据则包括直接存放在网络上的文件数据(csv,excel,txt等)和需要进行爬取的网页数据。
由于大部分的数据都是本地文件和网上的文件,因此这里着重讲解一下本地文件和网上文件的加载方式。有需要加载数据库文件,或诸如SPASS数据,SAS数据,Stata数据,XML数据等特殊数据的,可以留言给我。
1.从键盘中读取数据
#1.设置要读入数据的列名和数据类型
data=data.frame(name=character(0),age=numeric(0))
#2.edit()函数会自动弹出一个表格填写想要输入的数据
data=edit(data)
2.读取txt数据和csv数据,网络数据
data=read.table(file/url, header=TRUE, sep="", row.names=c(), col.names=c(),encoding="", colClasses=c(), stringsAsFactors=TRUE)
read.table()函数可以读取txt和csv两种数据类型。
常用的参数也就是以下几个:
file/url: 可以是本地文件,如"mydic/xxx.csv",也可是指定具体网址的网络文件。
h