- 博客(6)
- 收藏
- 关注
原创 转录组分析——数据的获取和比对至参考基因组
转录组是一个样本中所有RNA的总和,由于RNA的易降解性,在测序的时候需要逆转录至双链cDNA,测序原理参考之前的文章,不过由于染色体是双链,正链和反链可能会出现重叠的区域都有有效基因片段,因此在反转录时可以给dNTP加上一些标记,到最后数据处理时,可以选择过滤掉RNA的互补链。
2024-02-29 20:50:18 2593 1
原创 一代和二代基因组测序的基本原理
第一代测序为1977年sanger提出的双脱氧终止法,在理解原理前,必须要知道DNA合成的特点。与RNA合成(转录)不同,DNA合成需要RNA聚合酶先合成一小段RNA片段,为DNA的合成起始提供一个-3’OH(之所以要这样有说法是生物体为了DNA合成起始的保真性),而后续的dNTP延申都借用了上一个dNTP的-3‘OH。Sanger发现,当化学合成出的没有-3’OH的ddNTP(即双脱氧核糖核苷酸,图1)被DNA聚合酶援用延申新链时,由于缺乏3’羟基DNA的合成就会终止掉。天才的图1。
2024-01-11 21:26:42 3821 1
原创 序列比对——needleman wunsch算法及结果呈现
该算法从序列最左端开始,依次按照这三种情况打分,每下一个元素的配对情况都是按照上一个元素的最优解往下的。在得分矩阵每一个分值生成时,判断其分值的来源,考虑存在多个来源的情况,生成一个表示去向的矩阵,由xyz分别表示下,右,右下,无路可走就用空集表示,由于最左上角一定可以往右或往下,方便起见,在初始的方位矩阵左上角手动加上y和x。此算法精度极高,但是一般不用于较长的序列,因为时间复杂度较高,且会将所有结果都显示出来。gap:未配对罚分;↘表示配对成功,↓的箭头的位置所在左边的碱基对空,→与前者相对。
2024-01-02 14:21:08 1374
原创 从零开始的爬虫学习——多线程思路
把打开网页比作如下的数数,每次数数间隔一秒,那么只有1线程的话就要十秒,但2线程10秒可以数20次。# 创建两个线程thread2 = threading.Thread(target=count_numbers, args=(1, 10), name='Thread-2') # 增加线程2的数数任务量# 启动两个线程。
2023-12-28 19:01:01 623
原创 从零开始的爬虫学习——靓汤的使用
一个完整的网站一般有这几个要素:HTML、css、Javascript,分别定义网站结构信息,网站样式、网站与用户的交互逻辑,简单的把三者理解为骨架,衣服,动作。
2023-12-26 23:06:35 2003
原创 从零开始爬虫学习
http几个字从小见到大,但事实上相当长一段时间不知道这几个字母代表什么,后面得知这个叫超文本传输协议,具体怎么运作的不懂,大概就是用户用浏览器输入相应的网址后(请求),服务器会反馈给你网址里的内容(响应),返回来的东西是网站源码,即html,再靠一些翻译的工作把html变成各种网站美丽的样子。访问网址的方式一般有两种,即get和post,前者是获得数据,后者是创建数据,简单理解为在csdn看文章和在csdn创了个号。+查询参数,如第几页评论,&分割) HTTP/1.1(协议版本)
2023-12-25 20:55:13 872 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人