一、 手动录入数据
1. 创建空数据框
EmployeeData <- data.frame(gender=character(0),
educ=character(0),
jobcat=character(0),
salary=character(0),
salbegin=character(0),
jobtime=numeric(0),
prevexp=numeric(0),
minority=numeric(0))
2. 在弹出的对话框编写数据框
EmployeeData <- edit(EmployeeData)
二、 外部数据导入
1. 与R关联的文件夹
getwd() #查看默认路径#
setwd("F:/Practice/R") #设置默认路径#
2.从txt文本文件导入数据
MyDataframe <- read.table("F:/Practice/data.txt", header = TRUE) #header是标题,TURE意思是引用标题#
除了 read.table外, 还有 read.csv, read.csv2, read.delim, read.delim2 等对 read.table 进行了按照文件类型进行特别设置的函数可以使用:
read.csv: 以 “,” 分隔的 CSV 文件, 默认第一行为表头, 以 “.” 作为小数点.
read.csv2: 以 “;” 分隔的 CSV 文件, 默认第一行为表头, 以 “,” 作为小数点.
read.delim: 以 “\t” 分隔的 TSV 文件, 默认第一行为表头, 以 “.” 作为小数点.
read.delim2: 以 “\t” 分隔的 TSV 文件, 默认第一行为表头, 以 “,” 作为小数点.
read.fwf: 按照固定长度去读取文件.
3. 带分隔符的文本文件导入
MyDataframe <- read.table("F:/Practice/hfda_ch09_employees.csv", header = TRUE, sep=",") #sep是分隔符的意思#
4. 导入excel数据
install.packages("RODBC") #下载数据包#
library(RODBC) #读取数据包#
对于 Excel 文件, 可以像连接数据库一样进行连接, 使用 RODBC 包 (限于 Windows).
#导入excel -----start----#
channel <- odbcConnectExcel("F:/Practice/重复数据处理.xls")
EmployeeData <- sqlFetch(channel, "重复数据") #读取工作簿#
odbcClose(channel) #此时数据框仍为列表#
EmployeeData <- as.data.frame(EmployeeData) #把列表数据框转化为矩阵数据框#
#导入excel -----End----#
- 如果提示RODBC不支持64位:点击R Studio菜单上的Tools——Global
Options——Gneral,选择Reversion字段右侧的“Change”,切换成32位版本,可快速解决。 如果提示“Error
in odbcTableExists(channel, sqtable) : ‘Sheet1’: table not found on
channel”,检查一下excel第一个sheet页的名称,如果不是Sheet1就改个名字。
5. 读取剪切板数据
可以用read.table或read.csv,如果是CSV,那么sep为\t。clipboard是剪切板的意思#
a <- read.table("clipboard", sep="\t")
6. 读取网页数据
install.packages("XML") #下载数据包#
library(XML) #读取数据包#
zz <- readHTMLTable ("http://www.stats.gov.cn/Tjsj/zxfb/20140814_596079.html")
7. SPSS数据导入
install.packages("foreign") #下载数据包#
library(foreign) #读取数据包#
EmployeeData <- read.spss("Employeedata.sav")
EmployeeData <- as.data.frame(Employeedata)