基于半监督学习的单体型组装算法

基于半监督学习的单体型组装算法

发布时间:2021-02-16 17:20

  单体型组装(Haplotype Assembly)是根据测序得到的DNA片段通过各种模型算法来重建出生物个体的单体型。随着人类基因组计划(Human Genome Project,HGP)的逐渐完成,人们已经认识到个体之间基因序列的差异是造成个体之间各种表型差异的主要原因,如发色、体型、罹患疾病的不同风险程度等。因此分析个体的单体型在遗传领域有非常重要的意义,其主要应用有疾病诊断、药物研究等。如果能仅通过生物手段就获得个体正确的完整DNA序列,那么单体型组装问题是容易解决的。然而,在实际过程中,由于生物实验的的限制,通常仅能得到一些较短的DNA片段,并且实验中会不可避免地发生一些测序错误。因此,根据一些有测序错误的DNA片段并结合计算机技术来组装出错误最少甚至是正确的个体单体型既是目标,也是挑战。机器学习领域的半监督学习策略是一种科学利用无类标签数据的学习模式,由于有标签样本仅占少数,因此结合少量有标签数据和大量无标签数据来提高模型的学习性能是非常有必要的。基于以上,本文提出两种结合半监督学习的单体型组装算法。K均值算法(K-Means)是机器学习中非常经典的聚类算法,算法在迭代过程中不断地进行划分和更新聚类中心以获得最优聚类效果。本文提出一种基于半监督学习的单体型组装K均值算法,称之为SKMEANS。SKMEANS算法利用在预处理阶段可确认类别的片段构建初始聚类中心,然后通过比较片段与聚类中心之间的距离完成片段的划分,并更新聚类中心,这一阶段不断重复,直到聚类中心不再变化。K均值聚类阶段完成后得到的聚类中心被认为是最优单体型,通过两个聚类中心还原两条单体型,从而完成单体型组装。K最近邻算法(K-Nearest Neighbor,KNN)是机器学习中最基本的分类算法之一,算法的基本原理是:在特征空间中,如果样本的K个最近距离的样本类别多数属于某一个类别,那么该样本也属于这一个类别。本文提出一种基于半监督学习的单体型组装K最近邻算法,称之为SKNN。SKNN的数据预处理阶段与SKMEANS相似,通过已确认类别的片段构建初始SKNN模型。然后利用初始模型对剩下未确认类别的片段逐个进行分类,并且将置信度高的片段加入训练集,来逐渐完善模型。分类完成后,模型将得到两个不相交集合,通过每个集合里的片段的重叠位点可以推导出两条单体型。在实验设计部分,本文同时利用模拟数据和真实数据对SKMEANS和SKNN的算法进行测试,并与另外两种单体型组装算法ProbHap和PEATH进行算法性能比较,实验结果显示,SKMEANS算法和SKNN算法是可行的,与其他两种算法相比有更高的准确率,并且在真实数据实验中,SKMEANS有运行时间上的优势。

【文章来源】:湖南师范大学湖南省 211工程院校

【文章页数】:55 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 生物学理论基础
        1.2.1 染色体
        1.2.2 DNA与基因
        1.2.3 单体型与基因型
    1.3 单体型组装问题
    1.4 研究现状
    1.5 主要研究内容
第2章 基于半监督学习的单体型组装K均值算法
    2.1 半监督学习策略
        2.1.1 半监督学习策略的生物信息领域应用
    2.2 K均值算法
        2.2.1 K均值算法原理
    2.3 基于半监督学习的单体型组装K均值算法
        2.3.1 预处理阶段
        2.3.2 基于半监督学习的K均值聚类阶段
        2.3.3 单体型组装阶段
    2.4 本章小结
第3章 基于半监督学习的单体型组装K最近邻算法
    3.1 K最近邻算法
        3.1.1 K最近邻算法原理
    3.2 基于半监督学习的单体型组装K最近邻算法
        3.2.1 预处理阶段
        3.2.2 基于半监督学习的SKNN分类阶段
        3.2.3 单体型组装阶段
    3.3 本章小结
第4章 实验设计与结果分析
    4.1 模拟数据的生成
    4.2 模拟数据实验结果与分析
    4.3 真实数据实验结果与分析
    4.4 本章小结
总结与展望
    1 总结
    2 展望
参考文献
致谢


【参考文献】:
期刊论文
[1]重构肿瘤克隆单体型的改进生成树算法[J]. 耿彧,赵仲孟,刘建业.  南方医科大学学报. 2019(11)
[2]GWAS结合共表达网络分析挖掘影响油菜种子硫苷积累的作用位点[J]. 刘蔚,姚敏,康郁,王美,解盼,何昕,刘忠松,官春云,钱伟,华玮,钱论文.  农业生物技术学报. 2019(10)
[3]半监督聚类综述[J]. 秦悦,丁世飞.  计算机科学. 2019(09)
[4]HMGB1基因多态性与肺结核易感性的关系[J]. 袁乐永,柯尊琼.  实用医学杂志. 2019(14)
[5]不平衡分类的数据采样方法综述[J]. 刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍.  重庆理工大学学报(自然科学). 2019(07)
[6]MUC6基因多态性与幽门螺旋杆菌感染的关联性研究[J]. 高芳,秦金东,马立聪,刘得利,李晶晶,贾彦彬.  重庆医学. 2019(06)
[7]面向大数据挖掘的Hadoop框架K均值聚类算法[J]. 李爽,陈瑞瑞,林楠.  计算机工程与设计. 2018(12)
[8]K近邻协同过滤推荐算法中的最优近邻参数[J]. 李晓瑜.  计算机与数字工程. 2018(08)
[9]K最近邻算法理论与应用综述[J]. 毋雪雁,王水花,张煜东.  计算机工程与应用. 2017(21)
[10]基于样本密度的全局优化K均值聚类算法[J]. 薛印玺,许鸿文,李羚.  计算机工程与应用. 2018(14)

博士论文
[1]单体型组装问题参数化建模及算法研究[D]. 谢民主.中南大学 2008

硕士论文
[1]二倍体单体型重建问题研究[D]. 邬慧敏.广西师范大学 2017

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值