01_05 数据获取和清理概览

1、数据获取和清理的内容

(1)脏数据和干净数据

(2)下载文档

(3)读取数据(excel,xml,json,mysql,hdf5,web....)

(4)合并数据

(5)重新构造数据

(6)汇总数据

(7)寻找和替换

(8)数据源


2、数据库连接和列举

ucsDb <-dbConnect(MySQL(),user="genome",host="genome_mysql.cse.ucsc.edu")

result  <-dbGetQuery(ucscDb)

result


3、合并数据——merge()

mergeData2<- merge(reviews,solutons,by.x="solution_id",by.y="id",all=TRUE)

head(mergeData2[,1:6],3)

reviews[1,1:6]


4、脏数据和处理过的数据

(1)脏数据/原始数据

数据的来源、很难用来分析、数据分析包括处理、原始数据也许只要处理一次


(2)处理过的数据

可以用来分析的数据,数据处理包括合并、子集、转换等,也许处理有标准、所有处理的步骤都要被记录下来



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值