R语言使用 multicore 包进行并行计算

最新推荐文章于 2024-07-08 19:00:00 发布

diedie4488

最新推荐文章于 2024-07-08 19:00:00 发布

阅读量1.2k

点赞数

文章标签： r语言数据库

原文链接：http://www.cnblogs.com/Demo1589/p/8075495.html

版权

　　R语言是单线程的，如果数据量比较大的情况下最好用并行计算来处理数据，这样会获得运行速度倍数的提升。这里介绍一个基于Unix系统的并行程序包：multicore.

　　我们用三种不同的方式来进行一个简单的数据处理：

　　我们从 1000 genome project 数据库下载了VCF文件，现在需要手动提取出每个allele的 allele frequency(AF)值（vcftools 可以很好的解决这个问题，但是假设我的vcf文件没有genotype, 或者我要实现一些个性化功能，那么可能要手动解决）。我们仅仅提取VCF文件的前1,000,000行作测试。看一下文件前几行：

##fileformat=VCFv4.1
##INFO=<ID=LDAF,Number=1,Type=Float,Description="MLE Allele Frequency Accounting for LD">
##INFO=<ID=AVGPOST,Number=1,Type=Float,Description="Average posterior probability from MaCH/Thunder">
##INFO=<ID=RSQ,Number=1,Type=Float,Description="Genotype imputation quality from MaCH/Thunder">
##INFO=<ID=ERATE,Number=1,Type=Float,Description="Per-marker Mutation rate from MaCH/Thunder">
##INFO=<ID=THETA,Number=1,Type=Float,Description="Per-marker Transition rate from MaCH/Thunder">
##INFO=<ID=CIEND,Number=2,Type=Integer,Description="Confidence interval around END for imprecise variants">
##INFO=<ID=CIPOS,Number=2,Type=Integer,Description="Confidence interval around POS for imprecise variants">
##INFO=<ID=END,Number=1,Type=Integer,Description="End position of the variant described in this record">
##INFO=<ID=HOMLEN,Number=.,Type=Integer,Description="Length of base pair identical micro-homology at event breakpoints">
##INFO=<ID=HOMSEQ,Number=.,Type=String,Description="Sequence of base pair identical micro-homology at event breakpoints">
##INFO=<ID=SVLEN,Number=1,Type=Integer,Description="Difference in length between REF and ALT alleles">
##INFO=<ID=SVTYPE,Number=1,Type=String,Description="Type of structural variant">
##INFO=<ID=AC,Number=.,Type=Integer,Description="Alternate Allele Count">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total Allele Count">
##ALT=<ID=DEL,Description="Deletion">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DS,Number=1,Type=Float,Description="Genotype dosage from MaCH/Thunder">
##FORMAT=<ID=GL,Number=.,Type=Float,Description="Genotype Likelihoods<

最低0.47元/天解锁文章

diedie4488

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
R语言使用 multicore 包进行并行计算

　　R语言是单线程的，如果数据量比较大的情况下最好用并行计算来处理数据，这样会获得运行速度倍数的提升。这里介绍一个基于Unix系统的并行程序包：multicore.　　我们用三种不同的方式来进行一个简单的数据处理：　　我们从 1000 genome project 数据库下载了VCF文件，现在需要手动提取出每个allele的 allele frequency(AF)值（vcfto...
复制链接

扫一扫

R语言使用 multicore 包进行并行计算

“相关推荐”对你有帮助么？