真核基因组注释导读

msw521sg

于 2016-08-29 09:43:48 发布

阅读量4.9k

点赞数

分类专栏：生物信息文章标签：基因组注释

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/msw521sg/article/details/52350347

版权

本文概述了真核基因组注释的过程，包括基因组组装质量评估、基因预测与注释的区别、重复序列鉴定、证据比对、ab initio与evidence-driven预测的整合，以及注释阶段的工具应用。强调了重复序列鉴定的重要性以及基因注释的复杂性和挑战。

摘要由CSDN通过智能技术生成

前言

本博文基本是翻译自文章A beginner’s guide to eukaryotic genome annotation

　　二代测序以及最近三代单分子测序的火热，让我们获得高质量基因组越来越来容易，然而基因组注释仍然面临许多挑战。其中一个挑战就是寻找基因（gene finding），训练基因model，选择基因预测软件和注释软件，另一个挑战就是更新合并不同途径注释的基因，目前还没有完美的解决方法，但流行的RNA-seq 数据能够极大程度的帮助我们校准基因。基因组注释不是简单的点击几下鼠标就能够完成的，然而现在有很多工具帮助我们更好的注释基因组。

基因组组装（Genome assemblies）

　　进行基因组注释之前，需要对组装的基因组进行质量评估，查看是否可以用来进行基因组注释，继而获得可信的注释结果。有3个指标可以衡量组装的质量。
* Scaffold and contig N50s
* Percent gaps
* Percent coverage
　　 CEGMA提供了另外一种评估方案。CEGMA筛选收集了一些很保守的单拷贝基因（这些基因可以看做在每个真核物种里都存在），这样我们可以通过计算存在于目前的组装版本的基因数目来衡量组装基因组的完整性。

基因组注释

插播一下，基因注释与基因预测的关系

gene predictors find the single most likely coding sequence (CDS) of a gene and do not report untranslated regions (UTRs) or alternatively spliced variants. Gene prediction is therefore a somewhat misleading term. A more accurate description might be ‘canonical CDS prediction’.
Gene annotations, conversely, generally include UTRs, alternative splice isoforms and have attributes such as evidence trails.

The figure shows a genome annotation and its associated evidence.

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
真核基因组注释导读

前言本博文基本是翻译自文章A beginner’s guide to eukaryotic genome annotation 　　二代测序以及最近三代单分子测序的火热，让我们获得高质量基因组越来越来容易，然而基因组注释仍然面临许多挑战。其中一个挑战就是寻找基因（gene finding），训练基因model，选择基因预测软件和注释软件，另一个挑战就是更新合并不同途径注释的基因，目前还没有完
复制链接

扫一扫

专栏目录

msw521sg CSDN认证博客专家 CSDN认证企业博客

码龄15年

74: 原创

12万+: 周排名

159万+: 总排名

56万+: 访问

: 等级

4525: 积分

205: 粉丝

91: 获赞

47: 评论

436: 收藏

私信

关注

热门文章

分类专栏

生物信息 54篇
杂谈 3篇
生物 11篇
python 27篇
R 6篇
awk 1篇
胡言乱语 3篇
水稻 3篇
育种 1篇
写作 2篇
linux 4篇
MITE 2篇
小麦 4篇
文本转化 1篇
perl 1篇
画图 2篇

最新评论

如何获取一个基因家族的所有小麦基因
Tholin.: 非常感谢！！！！！！！！救大命啦！感谢大神相助！
exonerate结果整理，获取target序列
090723043: 很有用！打开文件时python3.10需要加个参数，如open('file.txt','r', encoding='UTF-8')。否则可能一直报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 362: illegal multibyte sequence
根据GFF3文件统计外显子大小和数量以及内含子大小
m0_70604997: 如果要把fasta中的内含子变成小写字母怎么做啊？
根据GFF3文件统计外显子大小和数量以及内含子大小
m0_70604997: 想问下如果想把内含子提出来的话要怎么做呢？
遗传图谱比较
m0_62650893: 请问图二是怎么画的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。