文献翻译——基于关联规则挖掘识别的鸡源大肠杆菌共有多重耐药模式(上)

原文来源

https://www.frontiersin.org/articles/10.3389/fmicb.2019.00687/full

摘要

在食用动物中使用多种抗生素可能在肠道杆菌中引起基因关联的多重耐药,这会造成屠宰肉类的污染。美国国家耐药性监测系统检测了从2004年到2012年的21243个鸡源大肠杆菌对15种抗生素的耐药性,结果 出现了大于32000个可能的多重耐药模式。我们采用关联规则挖掘方法分析了这个数据集种的多重耐药模式,这种方法也称为超市-货篮分析方法。通过四种质量度量标准对这种关联规则进行修剪,最终结果错误发现率低于1%。多重耐药规则在连续年份中比在屠宰与零售中更稳定。关联规则被分解为以抗生素为节点、以关联规则为连接的网络。内酰胺抗性与磺胺恶唑、庆大霉素、链霉素和四环素抗性也有很强的相关性。这些关联规则与之前确定的大肠杆菌耐药模式一致,但为研究大型数据集中的MDR提供了极大的灵活性。

方法

数据源

2000年以来分离自鸡源和2002年以来分离自NARMS监督部分的零售鸡肉大肠杆菌的药敏监测数据是可以公开获取的。由于NARMS采样策略的变化,并且为了保持与先前NARMS分离菌株的AMR关联性研究的一致性,本研究选用了2004年到2012年的数据(21243分离菌株数)。研究中利用了15种最常检测的抗生素外加阿奇霉素的MIC结果。每一个分离菌株根据出版的MIC视图分类为耐药或敏感。耐药性数据根据年份和来源(屠宰或零售)分成了18个数据集用来进行关联规则挖掘。每个年份-来源数据集中的16种抗生素的耐药率展示在表2中。

关联规则挖掘

背景

关联规则挖掘是一种无监督机器学习技术,用来识别二元大数据集中的关系模式。规则挖掘术语反映了它针对市场货篮数据的经典应用。二元数据被排列为事务和项,每一行有一个事务,每一列有一项。表3中是一个药敏检测数据集样例;每一个菌株被视为一个事务,每一个抗生素被视为一个项。对一种抗生素耐药则记为“1”,敏感则记为“0”.
一个项集是指零或者更多项的联合。如果一个项集中的所有项都出现在某个事务中,则称这个事务包含这个项集。例如,表3中的项集B包含于菌株1和3;项集A和D包含于菌株2,4和6;项集A,B,C包含于菌株1。排除零项中的空集,可能的项集数目是2^k-1,k是数据集中项的数目。表3中的样例数据集有5个项和31个潜在的项集。本研究使用的NARMS数据集包含最多15中抗生素和32767个潜在的耐药性联合。
一个项集的支持数是指包含该项集的事务,支持度则指的是包含该项集的事务的比例。例如,根据表3,项集B包含于6个菌株中的两个,因此它的支持数是2,支持度是0.33;项集A、D的支持数是3,支持度是0.5。频繁项集是指一个项集的支持度大于或等于一个用户定义的最小支持度。以表3为例,若最小支持度为0.4,则B是非频繁项集,而A、D是频繁项集。NARMS数据集中每一种单一抗生素项集的支持度展示在表2.
关联规则被表达为X→Y,X和Y是包含一种或更多项的不相交的项集。Y被称为结果或右边;X被称为原因或左边。在经典超市货篮分析中,这种规则意味着购买了X中所有项的顾客同时也买了Y中的所有项。对于抗生素耐药性,这种规则意味着分离菌株对X中的抗生素表现为耐药的同时也对Y中的抗生素表现为耐药。一个数据集可以包含3k-2(k+1)+1个潜在关联规则;检测15种抗生素时,表3中的样例数据集有180种可能的规则,表2中的NARMS数据集有最多14283372种关联规则。需要注意的是,潜在的关联规则要比潜在的项集更多,并且二者都以指数方式随数据集中的项数增长。关联规则可以用很多种质量度量标准描述,最常用的是支持度与置信度标准,其意义是给定前提条件下结果的条件概率。然而,支持度是对称度量而置信度是非对称度量。在表3中,关联规则A→C有0.75的置信度而C→A的置信度则是0.6。用户定义的最小置信度用于从所有可能的关联规则中选择更可靠的。

频繁项集和规则生成

发现关联规则需要两步,频繁项集生成和规则生成。通过基于最小支持度修剪参考项集,Apriori算法可以有效地发现频繁项集。由于一个项集地支持度必须小于或等于其子集的支持度,这个算法首先观察最小的项集(包含一个项的)并且排除所有不满足此最小支持度要求的。最终,所有包含一个非频繁项集的参考项集都会由于不满足最小支持度要求而被排除。这在图1中利用表3的数据进行了说明。如果最小支持度是0.4,则B是一个非频繁项集,因为其支持度是0.33。随后这个算法生成了可能的两项项集并排除包含B的项集,因为它们的支持度显然小于或等于0.33。仍存的两项项集的支持度被计算并与最小支持度进行比较。这一步骤持续进行直到所有的给定大小的项集都被决定是非频繁的或者算法达到了最大参考项集。这种方法可以有效地识别频繁项集,而不需要计算每一种可能的项集的支持度。在图1中,仅检查了5个一项项集的支持度,就把31种可能的频繁项集中的16个排除掉了。
规则从频繁项集种产生,以此保证关联规则的支持度大于或等于最小支持度。频繁项集被划分成两个互不相交的子集,即前提条件和结果。尽管前提条件和结果都可以包含多个项,但R软件中的“arules”包则将结果限制到了只有一个项。例如,项集A、C、E可以被划分到规则[A, E] →C, [A, C] →E,和[C, E]→A。置信度比最小置信度小的关联规则将被排除掉。

实现

NARMS数据的关联规则挖掘在R中用“arules”包实现。把最小支持度和最小置信度都设置为1/(菌株数),以此避免把有较少耐药性的抗生素排除在外。从18个年份-来源数据集的每一个中提取出包含至少两个抗生素的关联规则。“arules”中有46种可用于评价关联规则的质量度量。许多度量之间都相关,并且会产生相似的规则排名。因此,主成分分析被用于选择一小部分质量度量,使其可以在所有规则质量被评估的46种质量度量中抓住方差最大的。
利用这46个质量度量对18个年份-来源数据集进行计算;如果一个度量不能计算或包含无限值,关联规则就会被列表级删除。R中的“prcomp”函数被用于在每个数据集中计算前四个主成分,同时识别在每个主成分中有最大载荷的五个质量度量。在每一个主成分上选择一个在所有或几乎所有数据集中都有高负载的质量度量,最终得到四种度量(置信度、提升度、φ和ralambrodrainy),取得了占巨大比例的信息,这些信息包含在所有规则质量度量中。检查这四个质量度量在每个年份-来源数据集中的分布,并选定了置信度、提升度、φ和支持度的阈值,以此把每个数据集上的关联规则数量削减到1000或更少。由于Ralambrodrainy度量的分布很狭窄,并且一个很小的阈值就会使得很多数据集中的剩余的规则少于100个,故不利用它进行削减。削减后的规则集被称为最优规则,并将其用于比较跨年度和来源的耐药性的模式。

规则集的比较

每个年份-来源数据集的最优规则采用图示法和数值法进行比较。利用规则重叠率和积累规则稳定性分析了MDR模式中的时间趋势。规则重叠率给出了某两个规则集中相同规则占这两个规则集中所有规则比例。积累规则稳定性(CRS)在连续规则集上把规则重叠按照时间平均化。在两个规则集的共享规则的置信度和支持度区间上,采用平均化绝对偏差来比较共享规则。
规则被分解到抗生素节点和无向连接,以利用Gephi进行图形可视化。例如,规则[A,E]→C分解到节点(A,E,C)和无向连接(A-C,E-C)。冗余的连接将会被移除,同时每个连接依据出现在最优规则集中的次数进行加权。以抗生素种类为依据,把节点分成组。利用加权的连接和未加权的连接计算每个最优规则集的模块性。如果同一组中的节点的连接比偶然期望更频繁,则模块性为正;相似地,如果不同组中的节点的连接比偶然期望更频繁,则模块性为负。图像密度是从所有可能的连接中展示出的比例,并且对组内连接和组间连接分别计算了每个年份-来源的图和子图。对于一个给定的节点,节点度是通过连接与其相连的其他节点的数目。

错误发现率

通过关联规则挖掘发现的一些规则可能是错误发现,偶然出现并且不能代表任何真正的关联。Megiddo和Srikant证实了一种重采样方法,用以确定关联规则的统计学意义,并且将错误发现最小化。我们采用了这种方法来确定削减过的最优规则集中预期的错误发现数量。简言之,通过将每一个抗生素耐药性视为一个独立的带有参数n和p的二项随机变量,对每一个年份-来源数据集都创建100个空数据集,其中n是该年份-来源数据集中的事务数,p是数据集中耐药性的出现率。关联规则被挖掘出来后,计算每一个空数据集的置信度、提升度和φ的绝对值的百分数,并在100个空数据集上取平均值。对于给定的质量度量阈值,预期的错误发现率是在空数据集中质量度量值大于或等于这个阈值的规则所占的百分比。

结果

每一个年份-来源数据集都从7331和43707条规则中产生,越大的数据集产生越多的规则。规则质量度量的分布在整个数据集上都很相似。大多数规则都有高置信度,说明前提条件接近完美地预示了结果。用于削减规则地置信度阈值设为0.75,从而包含了可靠性大于75%的规则。大部分规则的支持度都很低,这与大部分抗生素低频率出现耐药性的现象保持一致。为了避免削减掉包含西游耐药性的有意义规则,支持度阈值设为0.01。提升度对比了一个数据集中一个规则的支持度与条件和结果相互独立时的预期支持度。提升度为1意味着条件和结果相互独立;提升度小于1意味着负相关而大于1则是正相关。整个数据集中只有3.5%的规则在条件和结果上负相关。选择提升度阈值为2,这可以挑选出在独立条件下和预期一样出现至少两次的MDR模式。φ相关系数衡量了规则中条件和结果的关联强度。0.5的阈值可以筛选出抗生素耐药性中从中度到重度正相关的规则。利用置信度>0.75,支持度>0.01,提升度>2,phi>0.5,进行削减,最终在每个数据集中得到了179到849个最优规则。
最优规则集可以跨年度和来源进行对比。高的规则重叠率说明两个数据集相似度很高;在AMR环境中它说明在两个年份来源数据集上有相同的MDR模式。总之,给定的一个年份中,接近四分之一的最优规则出现在了零售和屠宰两个来源。在连续的年份之间规则的重叠情况非常明显地有更多变化。零售中36%-75%的最优规则与下一个年份重叠;而屠宰厂数据中在连续年份之间规则重叠的比例在25%和90%之间变化。把规则共享比例与前一年的平均之后,零售和屠宰数据集都在四年之后的规则重叠率上达到了大约50%。
零售和屠宰数据集的最优规则支持度平均差异在0.007到0.03之间变动,与零售和屠宰数据的连续年份平均支持度差异相似。这个差异是平均最优规则支持度的14%到60%。来源和连续年份之间最优规则的平均置信度差异在0.01到0.04之间变动,只是平均置信度的1%到4%。
如果采用把每个条件抗生素通过连接与每个结果抗生素连起来的方法,把规则分解到节点和连接 ,则可以利用网络诊断来评估MDR模式。除了没有采用FIS检测的2007年屠宰厂菌株,十五种抗生素耐药性都在每个年份上进行了评估。在每个最优规则集中发现的105个可能的连接所占的比率,即图像密度,在25%到50%之间变动。在这15种可能的同种类抗生素连接中,接近75%也同样地在最有规则中发现了。在GEN和STR之间有偶然连接的最优规则确定了全部的十个β内酰胺类抗生素连接。β内酰胺类抗生素连接重复出现在了最优规则集中,并且通常在每个最优规则集中有最大的相关系数。在给定的年份和来源中,只发现了90个可能的种类间连接中的20%到40%。几乎所有的种类间规则把一个β内酰胺类和TET、FIS、STR或者GEN连接起来,而FIS、GENSTR和TET之间的连接很罕见。种间耐药性连接在每个最优规则集中随着变化频度和相关系数出现,但总是比β内酰胺种内耐药性连接更少。每一个最优规则网络的加粗或未加粗的模块性都接近于0,说明连接在节点之间近乎随机地分布(以节点度保持恒定为条件)。
通过从每个年份和来源中创建100个数据集计算了最优规则集中地错误发现率,保持了每一种耐药性的流行率但同时使得每一种抗生素成为一个独立随机变量。规则质量度量在空数据集中的分布被用于确定每一种质量度量的预期错误发现率,这些质量度量都可以用于削减规则集。在确定规则是真实关联还是错误发现时,规则置信度不是一个有用的质量度量,因为置信度大于0.95的规则中有12%到20%是错误发现。我们用置信度>0.75将每个规则集削减到最优规则集,如果只采用这一种质量度量进行削减,最终会得到16%到26%的错误发现。我们还移除了提升度≤2的规则,当它用于自身时,最终得到27%到44%的错误发现。提升度>10被要求达到≤5%的错误发现率。φ的绝对值可以小到0.2同时还有≤5%的错误发现率。我们的最优规则的φ>0.5,这与空数据集中<1%的预期错误发现率相关联。因此,在药物耐药性互相独立的前提下,置信度>0.75,提升度>2,以及φ>0.5的组合被用于创建最优规则集,同时预期的错误发现率<1%。

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值