这就是我如何使用 MATLAB 获取 RNA-Seq 数据,以便使用标准领结程序进行分析。我是一名新手编码员,所以请将其理解为“我做了什么”,而不是“你应该做什么”。我也欢迎有关处理这些数据任务的更好方法、更好的 MATLAB 编码等方面的建议。
我在这个项目中的目标是使用 RNA 序列来精确定位转录起始位点(确切地说是某个基因中 RNA 生产开始的位置)。
为此,我保存并纯化了 RNA 的独特起点,并将定义的 RNA 序列(我称之为 5’ RNA 接头)附加到 RNA 的起点。然后我使用一种称为逆转录酶的病毒酶将所有 RNA 转化为 cDNA(用于互补 DNA)。然后,我使用对该基因特异的引物,仅从我感兴趣的基因中扩增了 cDNA。最后,我对扩增的 cDNA 进行了测序并分析了这些序列读数。
正如我在上面第一篇文章中解释的那样,序列数据以 fasta 文件的形式返回给我。在这里我需要做一个不好意思的说明:我在第一篇文章中写的代码按照我的要求工作。问题是我没有要求 MATLAB 做正确的事情——我指定的输出不适用于 bowtie 程序(我在上面的第二篇文章中写过)。
我在这里讨论的代码确实以类似于第一篇文章的方式处理数据,