WinSNPGT:在 Windows 系统上对指定的 SNP 位点进行基因分型
👉 最新发布安装包
- 安装包
- CSDN下载安装包链接: WinSNPGT.exe
- Figshare下载安装包链接: WinSNPGT.exe
- Github下载安装包链接: WinSNPGT.exe
- 源码仓库
- Github项目仓库: Min-Zer0/WinSNPGT
- Gitee项目仓库: Min-Zer0/WinSNPGT
💡 总体介绍
-
随着测序技术的飞速发展,其成本大幅下降,导致了大量数据的产生。然而,大多数原始数据都是在 Linux 系统上分析的,对于不熟悉 Linux 系统的研究人员来说,要完成从测序数据生成变异位点信息的过程是一个较大的挑战。
-
因此我们开发了一个工具包 WinSNPGT,用于在 Windows 系统上获取变异位点。它可以从原始测序数据中得到我们数据集中指定 SNP 位点的基因型。
-
以下是该工具包的安装和使用说明。
🧾 背景
- 我们开发了一个表型预测平台,CropGS-Hub,其中包含多个高质量的重要农作物数据集(如水稻、玉米等)。这些数据集被用作训练集,构建表型预测模型。用户可以将他们自己样本的基因型上传到该平台,进行在线的表型预测。
- WinSNPGT 工具包的开发旨在确保用户上传的基因型和模型训练集中的基因型位点匹配,以此来避免预测结果中的偏差。用户可以在 Windows 系统上运行该程序,只需要简单的操作,就可以实现从测序文件获取基因型的整个过程。对于缺乏 Linux 操作经验的人来说,这软件非常友好。
🌟 安装
- java8 下载地址:下载地址1 | 下载地址2 | 下载地址3 | 下载地址4
- 默认安装
- WinSNPGT 下载地址:👉 最新发布安装包
-
双击自解压.exe安装包, 选择安装路径(
路径中不能包含 中文字符
),点击开始解压。
-
自解压完成后,出现以下提示,表示安装成功:
-
双击进入安装目录 WinSNPGT/
WinSNPGT:插件启动图标(同时桌面也会生成快捷打开方式)
Input_Fastq/:用户将双末端测序文件作为输入移入此文件夹
Result/:程序运行完成后,输出结果文件夹
Reference_Genome:打开参考基因组文件所在位置(一般情况不会使用到)
-
🔍 测试数据
-
示例数据文件未包含在安装包中,可以通过点击下载:示例数据
示例数据文件的物种是 Oryza sativa(水稻),基因分型时可以在工具包中选择与水稻相关的数据集,例如 GSTP007 ~ GSTP009。
🌟 使用
步骤 1:移入原始测序数据
- 将原始测序数据
(*.fastq.gz)
或(*.fastq)
文件移动到路径 ./Input_Fastq 下
步骤 2:启动 WinSNPGT
- 双击打开SNPGT,会在默认浏览器中弹出一个网页窗口
- 同时会有一个作为后台程序运行的窗口
程序运行时不要关闭这个后台窗口
程序运行结束后或重启程序时,需要关闭该窗口
步骤 3: 创建项目(Project)
- 手动选择的方式(Manual selection)
样本较少时,建议使用此选项,可快速添加生成表单
输入项目(Project)名称,作为输出文件的前缀
输入样本名称,并选择相应的原始测序文件,点击按钮 Add 添加更新表单
在添加完所有需要进行基因分型的样本并确认表单正确后,点击按钮 Submit
注意: 项目和样本名称仅限:数字 和 大小写字母 【空格请用下划线代替】,且样本名不可全是数字
- 读取表格的方式(reading excel table)
样本过多时,建议使用此选项,避免手动选择时出错
提前填写 ./Input_Fastq 路径下的表格文件 Sample.table.xls
注意: 项目和样本名称仅限:数字 和 大小写字母 【空格请用下划线代替】,且样本名不可全是数字
步骤 4: 选择物种与数据集(Species and Dataset)
- 选择需要进行基因分型的样本所属物种
- 选择要拟合的模型相对应的数据集
- 可用数据集:CropGS-Hub Dataset
步骤 5: 选择运行线程数
- 默认线程数为4
步骤6:开始运行
其他: 离线下载物种数据集
- 正常运行时,程序会自行下载参考基因组后,再进入基因分型分析流程,用户无网络环境下,可自行离线下载。
- 下载地址:
- Maize (Zea mays):
- GSTP001_8652_Hybrid : Maize_8652_Hybrid
- GSTP002_5820_Hybrid : Maize_5820_Hybrid
- GSTP003_1458_Inbred : Maize_1458_Inbred
- GSTP004_1404_Inbred : Maize_1404_Inbred
- GSTP005_350_Inbred : Maize_350_Inbred
- GSTP006_1604_Inbred : Maize_1604_Inbred
- Rice (Oryza sativa):
- GSTP007_1495_Hybrid : Rice_1495_Hybrid
- GSTP008_705_Inbred : Rice_705_Inbred
- GSTP009_378_Inbred : Rice_378_Inbred
- Cotton (Gossypium hirsutum):
- GSTP010_1245_Inbred : Cotton_1245_Inbred
- Millet (Setaria italica):
- GSTP011_827_Inbred : Millet_827_Inbred
- Chickpea (Cicer arietinum):
- GTP012_2921_Inbred : Chickpea_2921_Inbred
- Rapeseed (Brassica napus):
- GSTP013_991_Inbred : Rapeseed_991_Inbred
- Soybean (Glycine max):
- GSTP014_2795_Inbred : Soybean_2795_Inbred
- Maize (Zea mays):
- 下载对应择物种与数据集后,双击 Reference_Genome.bat, 打开文件所在路径,将离线下载的文件拖入即可。
- 此功能也可做为不同用户间的物种与数据集数据迁移,无需重复下载。
输出 & 后续
-
程序完成后会在Result/目录中输出结果文件
- 标准格式 VCF(variant call format) 文件
- *.Genotype.txt (样本基因分型矩阵,格式如下)
CHROM POS Line 1 line 2 … line N Chr1 128960 A . … C Chr1 133137 C C … T … … … … … … Chr12 321216 A A … A Chr12 364257 A C … C Chr12 364755 . . … . … … … … … … -
上传 *.Genotype.txt 至 CropGS-Hub 以完成后续分析。
- 表型预测 PhenotypePrediction
- 杂交设计 CrossingDesign
💡 常见问题
如果在程序运行过程中出现报错,请参考以下情况来解决问题:
-
测序运行中在获得结果之前,
后台程序窗口不可以关闭
。 -
如果交互界面上填写了错误的信息,只要在点击 Run 按钮之前,都可以
刷新浏览器界面
后重新操作,无需重新启动程序 或 重复移动文件的步骤。 -
WinSNPGT 安装路径中
不能出现中文字符
,如果遇到报错,可以检查一下路径里是否含有中文,否则可能出现如下报错:
-
如果选择了读取 Excel 表格的方式,必须在填写后
保存并关闭表格
。也就是说表格不可以处于打开的状态,否则可能出现如下报错:
-
以上是一些可能导致报错的原因,如果还有其他问题,请随时联系我们。
👥 联系我们
- 邱杰 Jie Qiu (qiujie@shnu.edu.cn)
- 朱旻 Min Zhu (zer0min@outlook.com)
- 陈嘉欣 Jiaxin Chen (jxchen1217@gmail.com)