我有一个拥有5700万行和23列的数据集.有一个列有不同鸟类的物种名称(约2000个唯一名称),我想为每个独特的物种名称提取两列数据(纬度,经度),并写入每个列的纬度/经度数据.物种,物种名称作为文件名.这是我知道的唯一语言R需要很长时间.适合这项任务的代码是什么?
我在这里尝试一些伪代码来演示我猜测代码可能看起来像什么,大致:
FOR i IN 1:unique(species_name)
SELECT latitude,longitude WHERE species_name=[i]
WRITE [some code that writes a text file with species name as the file name]
LOOP END;
我想我可以在OSX的终端上做这种事情吗?
编辑20111211:
这是我在R的工作流程:
require(RMySQL);
require(plyr)
drv
con
splist
sqlwrite
cat(spname) g1
, paste("SELECT col_16,col_18 FROM dat WHERE col_11='"
, spname, "'", sep="")
)
write.csv(g1, paste(spname, ".csv", sep=""))
rm("g1") }
l_ply(splist, sqlwrite, .progress="text" )
解决方法:
恕我直言,你能做的最好的事情是使用脚本语言(python,perl,php,shell)并从那里生成文件名和查询.这不是太难,但你必须学习不同的语言. SQL不适合命令式编程.
标签:mysql,sql,r,plyr
来源: https://codeday.me/bug/20190704/1378269.html