LightGBM 挖掘 SNP 的注意事项

1. 决策树难以挖掘到有意义的稀有突变

  1. 每次节点所选择的特征是对整体影响最大的特征,而越靠近树根时,集合内样本数量越大,越混乱,越难分离出异常值,进而也就越难选择对表型有显著影响的稀有突变。
  2. 而当节点越靠近叶片时,集合内样本数量越少,在群体中 MAF 越高的 SNP 越有可能在子集中有两种基因型,从而对子集有区分能力。对于在群体中 MAF 低的 SNP 在样本数量越少的子集中越可能只有一种基因型,从而无法对子集进行区分。
  3. 同时,由于子集中 SNP 的特定基因型样本数量需 >= 叶内最小样本量,所以该参数也限制了挖到的 SNP 的最小等位基因型频率。

综上,决策树难以挖掘到有意义的稀有突变,与其挖掘稀有等位突变,不如把研究重心放在如何妥善的利用各种常见的SNP基因型组合出自己想要的表型或表达量。并且我们在思考决策树挑选出的 SNP 时,一方面要考虑它可能存在的生物学意义,另一方面要考虑它的等位基因型频率。可能决策树选此 SNP 作为特征一方面是该 SNP 离真正的有意义突变较近,另一方面其 MAF 较高,在子集中有两种基因型。

2. 决策树难以利用逻辑关系挖掘出单倍型(单树模型的不足)

1. 背景

由于决策树模型是通过一连串逻辑判断完成预测的,不同的预测值对应着不同组合的逻辑判断。在 SNP 预测表型、预测基因表达量等生物问题上就意味着不同的预测值对应着不同的 SNP 组合,即单倍型。

  1. 从生物角度上看,由于诸多农艺性状和疾病等都是受多基因调控的复杂表型,大多数基因对表型的影响可能是较小的,单倍型有助于将多个基因的效应联合起来,同时将基因间的互作纳入考量范围中。在 SNP 预测基因表达量的问题上,单倍型也有上述的这些优点,可以将多个 SNP 间的效应联合起来,并将 SNP 间的互作纳入考量范围中。
  2. 从预测角度上看,使用 SNP 作为特征时特征值只有 3 种,丰富度低。而使用单倍型作为特征其特征值丰富度远高于SNP,有助于提高模型的预测精度。
  3. 从实际应用角度看,找到关键的SNP最多只能将表型、基因表达量等分成 3 个 box,而找到关键的单倍型可以将其分成 N 多个 box,更有利于根据需求设计不同表型、表达量的植株。

正是由于单倍型的诸多优点,所以我希望通过决策树筛选出比较稳健的,不同表型或表达量对应的 SNP 单倍型,并挖掘其背后的生物学意义。

2. 实践

利用逻辑关系挖掘单倍型时,为了降低单倍型的复杂性,我使用单树模型且设定最大深度。在单树模型中,树叶数、最大深度、叶内最小样本量对模型预测精度影响很大。

  1. 叶内最小样本量减少会提高模型对较极端数据的拟合能力,有利于挖掘极端性状对应的单倍型。但对极端数据拟合能力的提高,会使模型预测表型相近样本的能力变弱,即会有少量叶片上存在大量样本,大量叶片上存在少量样本。这导致在较高精度模型中选出来的单倍型中,大部分单倍型对应的样本较少,小部分单倍型对应的样本较多,增加了模型的过拟合风险(参见下图,如果叶内最小样本量 > 1,或树叶数较小,则该离群值都无法被分离出来。所以要想分离出离群值,既要叶内最小样本量 = 1,又要树叶数较多,而这两个条件都使模型更易过拟合)。 而增加叶内最小样本量会导致离群值无法被分离,降低模型预测精度。使用多树模型可以将前一棵树未被分离的离群值在下一棵树中被分开拟合,妥善解决了叶内最小样本量增加带来的弊端
  2. 其中样本少且 SNP 组成简单的单倍型容易受到未知因素(如群体结构)的影响而导致组成单倍型的 SNP 是数学巧合,没有生物学意义,即是过拟合的。所以较为稳健的做法是使用较多的特征来组成单倍型,降低其中少量假阳性 SNP 对单倍型整体的影响,即增加模型中树的个数。但增加树的个数与使用逻辑关系挖掘单倍型的目的相违背,使上述不足难以避免。
  3. 在没有实验证明的情况下,如果模型没有普适性则难以说明挖掘出的单倍型是有效的,并且如果模型的预测精度较低,也难以说明挖掘出的单倍型是有效的。只有预测精度较高且有普适性的模型挖掘出的单倍型,才可能有比较可靠的生物学意义。
  4. 而从试验结果来看,树叶数为 40、最大深度为 10 的单树模型的预测精度较低,难以证明挖掘出单倍型的有效性。

综上,决策树难以利用逻辑关系挖掘出单倍型,且多树模型相比单树模型有着许多方面的优势,或许可以尝试通过组合关键 SNP 的基因型来构建单倍型。

3. 难以仅利用决策树来挖掘 SNP 的生物学意义

如挖掘预测表达量模型中 SNP 的生物学意义。由于无法实验验证,所以我们需要尽可能的挖掘可以直接解释的 SNP,如在基因启动子区或基因上等。经过试验,随着备选 SNP 范围的减少,模型预测精度逐渐下降。最后决定选择上下游各扩展100kb后的区间内 SNP 进行建模。但即使仅用可以直接解释的 SNP,也难以解释挖掘出的 SNP 的生物学意义。因为如果影响基因 A 表达量的有意义 SNP 只有 3 个,但只要我决策树叶子够多,那么选出来的 SNP 绝对不止 3 个,无法排除假阳性 SNP。

综上,用 LightGBM 挖掘出的 SNP 在不进行实验验证的情况下,更应讨论预测的意义,如 SNP 基因型对应的表达量,而非筛选出来的 SNP 背后的生物学意义,如为什么这个 SNP 基因型对应这个表达量。但在大范围下可以讨论生物学意义,如在预测表达量的模型中,挖掘到的 SNP 在某基因附近,其背后可能是有生物学意义的。


4. 从分析 SNP 的重要性转化为分析 SNP 基因型的重要性

在对树模型结构的观察中发现,存在分枝后两子集间样本量差异极大的情况,如 130=3:127,127=1:126 等。这种情况类似树模型为了那几个少量的样本专门进行的分枝,所以我认为这些少量样本对应的基因型较为重要,分枝前后信息增益的减少应该主要归功于这些少量样本对应的基因型。所以将信息增益从SNP进一步细分到SNP的每个基因型是必要且合理的。

在这里插入图片描述
从上面这个例子中可以发现,决策树进行 chr3.s_159085193, chr3.s_158922553 两次判断的目的是为了将离群值 70.889 的样本筛选出来,但由于没有与该离群值直接相关的 SNP,这里进行了两次判断,用两个 SNP 的基因型将离群值筛选出来。所以这两次判断后的信息增益应主要归功于离群值 70.889 的分离,增益也应当主要放在该样本对应的基因型上。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值