【报错】plink --ped snp.ped --map snp.map --make-bed --outsnp_bed
PLINK v1.90b7 64-bit (16 Jan 2023) www.cog-genomics.org/plink/1.9/(C) 2005-2023 Shaun Purcell, Christopher Chang GNU General Public License v3
Logging to snp_bed.log. Options in effect: --make-bed --map snp.map --out
snp_bed --ped snp.ped 16283 MB RAM detected; reserving 8141 MB for main
workspace.
Error: Invalid chromosome code '27' on line 42665914 of .mapfile. (This is disallowed for humans. Check if the problem is with your data,or if you forgot to define a different chromosome set with e.g. --chr-set.)
【解读】这个错误信息表明在将ped文件转换为bed文件时,plink在读取map文件时遇到了问题,具体是在第42665914行上的染色体代码'27' 是无效的。因此,你需要检查snp.map文件,确保所有的染色体代码都是有效的和正确格式化的。
如果你确定该map文件中存在染色体27的错误,则应该进行如下处理:
修改map文件中的错误,将染色体27改为正确的编号(例如,如果你处理的是牛染色体,则应该将27修改为29)。
如果你不确定染色体代码的正确编号,请查看文献或相关文档,以确保你的染色体编号是正确的。
如果你需要将非人类物种的数据转换为bed格式,请确保在命令行中使用了正确的参数(例如,--chr-set)来定义正确的染色体代码。
完成以上步骤后,再次运行plink命令,应该就可以成功将ped文件转换为bed文件了。
【处理】牛的ped数据,并且需要将其转化为bed格式,你可以使用plink命令的--chr-set选项来定义染色体代码。对于牛的染色体,常染色体编号为1-29,X代表X染色体,M代表线粒体染色体。
因此,你可以在命令行中添加--chr-set30来定义常染色体编号为1-29,X染色体为30,线粒体染色体为31。具体的plink命令如下:
Win10 下git运行plink:
【代码1】plink --file snp--make-bed--out snp_bed --cow--chr-set 30
其中,--cow选项告诉PLINK你处理的是牛的数据。--chr-set 30选项指定了自定义染色体集合,其中包括常染色体1-29、性染色体X和线粒体染色体M。
【运行日志】PLINK v1.90b7 64-bit (16 Jan 2023)
Optionsin effect:
--chr-set 30
--make-bed
--map snp.map
--out snp_bed
--ped snp.ped
Hostname:DESKTOP-5CHRNIM
Working directory: G:\A测序分析数据\result\Merge_VCF
Starttime: Thu Mar 02 16:01:50 2023
Randomnumber seed: 1677744110
16283MB RAM detected; reserving 8141 MB for main workspace.
Scanning.ped file... done.
Performingsingle-pass .bed write (46580773 variants, 30 samples).
--file:snp_bed-temporary.bed + snp_bed-temporary.bim + snp_bed-temporary.fam
written.
46580773variants loaded from .bim file.
30samples (0 males, 0 females, 30 ambiguous) loaded from .fam.
Ambiguoussex IDs written to snp_bed.nosex .
Using1 thread (no multithreaded calculations invoked).
Beforemain variant filters, 30 founders and 0 nonfounders present.
Calculatingallele frequencies... done.
Totalgenotyping rate is 0.98575.
46580773variants and 30 samples pass filters and QC.
Note:No phenotypes present.
--make-bedto snp_bed.bed + snp_bed.bim + snp_bed.fam ... done.
Endtime: Fri Mar 03 00:41:36 2023
你还需要将--file选项改为你实际使用的文件名前缀,这里我假设文件名前缀为snp。
如果你的数据文件包含多个染色体,那么你也可以使用多个--chr选项来指定包含在数据中的染色体,例如:
【代码2】plink --file snp--make-bed--out snp_bed --cow--chr 1-29,X,MT
其中,--chr选项指定了包含在数据中的染色体。在这个例子中,我们指定了常染色体1-29、性染色体X和线粒体染色体MT(即M)。注意,这里使用了不同的语法来指定染色体,即使用逗号分隔的列表,而不是 --chr-set选项。
PLINKv1.90b7 64-bit (16 Jan 2023)
Optionsin effect:
--chr 1-29,X,M
--cow
--file output
--make-bed
--out output_bed
Hostname:DESKTOP-5CHRNIM
Working directory: G:\A测序分析数据\result\Merge_VCF
Starttime: Thu Mar 02 16:57:57 2023
Randomnumber seed: 1677747477
16283MB RAM detected; reserving 8141 MB for main workspace.
Scanning.ped file... done.
Performingsingle-pass .bed write (46580773 variants, 30 cattle).
--file:output_bed-temporary.bed + output_bed-temporary.bim +
output_bed-temporary.famwritten.
46580773variants loaded from .bim file.
30cattle (0 males, 0 females, 30 ambiguous) loaded from .fam.
Ambiguoussex IDs written to output_bed.nosex .
Using1 thread (no multithreaded calculations invoked).
Beforemain variant filters, 30 founders and 0 nonfounders present.
Calculatingallele frequencies... done.
Totalgenotyping rate is 0.98575.
46580773variants and 30 cattle pass filters and QC.
Note:No phenotypes present.
--make-bedto output_bed.bed + output_bed.bim + output_bed.fam ... done.
Endtime: Fri Mar 03 01:47:04 2023
【详解】
这段 PLINK软件的日志记录了程序的运行信息。下面是对日志内容的详细解释:
PLINK v1.90b7 64-bit (16 Jan 2023):运行 PLINK 版本为 1.90b7 64 位,发布日期为 2023 年 1 月 16 日。
Options in effect::当前生效的选项。
--chr 1-29,X,M:只包含染色体 1 到 29,以及 X 和 M 染色体的数据。
--cow:表示输入的数据为牛的基因型数据。
--file output:输入的数据文件名为 output。
--make-bed:生成 BED 格式文件。
--out output_bed:输出文件的名字为 output_bed。
Hostname: DESKTOP-5CHRNIM:运行该程序的计算机名称为 DESKTOP-5CHRNIM。
Working directory: G:\A测序分析数据\result\Merge_VCF:程序的工作目录为 G:\A测序分析数据\result\Merge_VCF。
Start time: Thu Mar 02 16:57:57 2023:程序开始运行的时间为 2023 年 3 月 2 日下午 4:57。
Random number seed: 1677747477:随机数种子为 1677747477。
16283 MB RAM detected; reserving 8141 MB for main workspace.:程序检测到计算机有 16283 MB 的 RAM,其中 8141 MB 被分配给主工作空间。
Scanning .ped file... done.:扫描 PED 文件完成。
Performing single-pass .bed write (46580773 variants, 30 cattle).:进行一次 BED 格式文件的写入,共有 46580773 个位点和 30 头牛。
--file: output_bed-temporary.bed + output_bed-temporary.bim + output_bed-temporary.fam written.:临时 BED、BIM 和 FAM 文件已经写入。
46580773 variants loaded from .bim file.:共有 46580773 个位点从 BIM 文件中加载进来。
30 cattle (0 males, 0 females, 30 ambiguous) loaded from .fam.:共有 30 头牛(0 头公牛、0 头母牛、30 头未知性别)从 FAM 文件中加载进来。
Ambiguous sex IDs written to output_bed.nosex .:未知性别的牛的 ID 被写入了 output_bed.nosex 文件。
Using 1 thread (no multithreaded calculations invoked).:使用单线程进行计算。
Before main variant filters, 30 founders and 0 nonfounders present.:在主要的变异位点过滤之前,有 30 个祖先和 0 个非祖先。
Calculating allele frequencies... done.:计算等位基因频率完成。