1、数据获取和清理的内容
(1)脏数据和干净数据
(2)下载文档
(3)读取数据(excel,xml,json,mysql,hdf5,web....)
(4)合并数据
(5)重新构造数据
(6)汇总数据
(7)寻找和替换
(8)数据源
2、数据库连接和列举
ucsDb <-dbConnect(MySQL(),user="genome",host="genome_mysql.cse.ucsc.edu")
result <-dbGetQuery(ucscDb)
result
3、合并数据——merge()
mergeData2<- merge(reviews,solutons,by.x="solution_id",by.y="id",all=TRUE)
head(mergeData2[,1:6],3)
reviews[1,1:6]
4、脏数据和处理过的数据
(1)脏数据/原始数据
数据的来源、很难用来分析、数据分析包括处理、原始数据也许只要处理一次
(2)处理过的数据
可以用来分析的数据,数据处理包括合并、子集、转换等,也许处理有标准、所有处理的步骤都要被记录下来