Plant Com | 浙大樊龙江团队构建作物AI育种数据库(BreedingAIDB)

浙江大学农业与生物技术学院樊龙江团队在Plant Communications在线发表了题为“BreedingAIDB: a database integrating crop genome-to-phenotype paired data with machine learning tools applicable in breeding”的论文。该研究搭建了作物基因组-表型成对数据库BreedingAIDB(http://ibi.zju.edu.cn/BreedingAIDB/),助力智能设计育种。

图片

https://doi.org/10.1016/j.xplc.2024.100894

育种4.0作为下一代育种技术,致力于整合各类先进技术以应对粮食安全的巨大挑战。基于机器学习(Machine learning,ML)的基因组到表型(Genome-to-phenotype,G2P)预测是育种4.0的核心研究内容之一。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。目前已积累了大量的作物基因组(包括基因型)和表型数据,相应的数据库也已得到了很好发展,但一直缺乏基因组-表型成对数据(即一份材料既有基因组信息,同时也有对应的表型数据)的收集,阻碍了机器学习在G2P领域的研究应用。因此,BreedingAIDB(v1版)目前收集了水稻、玉米、大豆基因型数据及其对应的表型数据,包含了14.3万对水稻、1.3万对玉米和28.4万对大豆基因组-表型数据对,从而为作物育种领域机器学习模型开发等研究提供重要的数据支撑。

提供原始数据对特征工程领域的研究至关重要。以往的数据库多以群体基因型矩阵的方式提供基因组数据,这类数据经过了群体过滤,缺失了部分原始信息,不适合支持特征工程(Feature engineering)的开发研究。特征工程又称特征提取,是使用领域知识从原始数据中提取特征(特征、属性、特性)的过程。BreedingAIDB提供了每个样本更为原始的数据:GVCF(Genomic Variant Call Format)和VCF(Variant Call Format)文件,除了每个样本的SNP信息,基因组上仍然有其它更多的信息可能对基因组的表征至关重要,GVCF文件包含了基因组中所有位点的信息,也包括Indel和CNV等变异信息。

图片

BreedingAIDB 提供了三个机器学习核心功能模块:特征提取、表型预测和 ML项目。特征提取模块的引擎是GSCtool,可以帮助用户完成基因组特征提取。GSCtool是该团队前期开发的一个基因组表征工具(Shen et al., 2023; Advanced Intelligent Systems),该工具受自然语言识别领域词袋(BoW)算法的启发,利用基因组上每个基因SNP的频率信息表征基因组信息,在G2P预测方面的效果优于基因组矩阵编码方式。表型预测模块,目前暂时部署了水稻粒长和粒宽两个预测模型,该团队正在开发和优化更多的预测模型。ML项目模块可以帮助用户构建LightGBM模型,定义超参数空间,用户也可以自行修改这些超参数空间的参数,Optuna会在定义的超参数空间中寻找出最拟合用户数据的LightGBM模型。

浙江大学海南研究院博士生沈子杰为论文第一作者,叶楚玉教授为通讯作者。项目研究得到了科技创新2030—“智能设计育种技术创新与应用”重大项目和海南省重点科技攻关项目的资助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信宝典

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值