生物信息学习笔记整理

最新推荐文章于 2020-11-21 01:37:22 发布

Hao222222222222

最新推荐文章于 2020-11-21 01:37:22 发布

阅读量1.4k

点赞数 1

分类专栏： bioinfo 文章标签：生物函数经验

本文链接：https://blog.csdn.net/hxoxh/article/details/77249295

版权

这篇博客整理了生物信息学中的实用代码和技巧，包括对字典排序、使用enumerate处理文件、正则表达式、读取fastq和fasta文件的方法，以及使用R语言和matplotlib进行数据可视化。

摘要由CSDN通过智能技术生成

做了不少练习，整理一下以前的经验。
主要是归纳一些模块化的东西，提取一些常用的函数还有一些小tricky

# split的用法
str = "Line1-abcdef \nLine2-abc \nLine4-abcd"
print (str.split( ))
print (str.split(' ', 1)) # 从头开始切一刀
list1 = [ [1,5,7], [10,3, 4], [6, 8, 5]]

# continue的用法
for list1_item in list1:
    for item in list1_item:
        print(item)
        if(item >= 10):
            print('10以上')
            break
    else:  
        continue
    break

对字典排序

# 方法1  据说这种方法更快 
from operator import itemgetter
d = {
  'a':2, 'b':23, 'c':5, 'd':17, 'e':1}
sorted(d.items(), key=itemgetter(1), reverse=True)
# 方法2
paixu = sorted(d.items(), key=lambda x: x[1],reverse = True)

# zip()可以把两个列表合成一个字典，顺序不变
#dictionary = dict(zip(index, cg_percentage))

格式化输出
percent3 = (

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Hao222222222222

关注关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

生信自学笔记（二）生物信息

羊城迷鹿的博客

07-26

5828

基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序。 DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据蛋白质序列是指 20 种氨基酸的排列顺序（即蛋白质的一级结构）。蛋白质结构数据指的是蛋白质的三级结构信息。其三级结构是在各种二级结构的基础上，再进一步盘曲或者折叠形成的具有一定规律的三维空间结构。蛋...

生物信息学Bioinformatics学习笔记（一）

cling5899的博客

03-21

7662

文章目录生物信息学第一章绪论History（根据19年的一份综述）生物信息学的研究内容生物信息学的应用领域第二章模式生物和生物信息学数据库资源第一节模式生物测序第二节三大核酸数据库第三节蛋白质数据库第三章 生物信息学数据库查询第一节生物信息数据库的储存第二节 GenBank中序列的获取第三节数据库文献的检索第四章序列分析第一节序列比对的内容Sequence Alignment第二节 BLAST应用示例第五章进化与系统发生分析第一节生物进化的分子基础第二节基本概念第三节系统发生树的构

参与评论您还未登录，请先登录后发表或查看评论

生物信息基础学习笔记（1）

Fluence_YHL

08-01

1340

生物信息基础学习笔记 (1)——穷举搜索部分酶切问题：已知多重集，求原来的集合 X，可以有多个。例子：X = { 0 ， 2 ， 4 ， 7 ，10 }，则 = { 2 , 2 , 3 , 3 , 4 , 5 , 6 , 7, 8 , 10 } 不同的 X 可能产生相同的 , 这样的 X 称为同效集。现在已知，要求所有的 X 。不实用的限制酶切作图算法 ...

生物信息学学习笔记

郝玉杰的专栏

01-06

664

正在努力学习matlab和生物信息学。原来matlab网站上，可以下载一些示例。 https://ww2.mathworks.cn/matlabcentral/fileexchange/32427-fast-approximate-entropy?s_tid=srchtitle 注册一个用户后，就可以把例子下载下来。...

生物信息学笔记

zzz19920821的博客

12-17

469

生物信息学 交叉学科莱布尼兹首次提出计算机的概念：数理逻辑、数学、计算机均处于一个统一的目的，即人的思维过程的演算化、计算机化、以至于在计算机上实现。 ...

生物信息学课程学习笔记第四版2022版

热门推荐

canxuezhang的博客

06-08

5万+

整理信息论基础的知识点。

机器学习笔记精要整理与深入解析

资源摘要信息:"机器学习笔记" 1. 机器学习基础概念机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习和改进，而无需明确的编程指令。其核心任务包括分类、回归、聚类、强化学习等。机器学习可以分为...

教育综合基础知识学习笔记个人整理版.doc

09-20

20世纪中叶以后，教育呈现全球化、本土化、终身化和全民化趋势，教育的功能扩展到服务性、可选择性、公益性和公正性，现代信息技术的应用也极大地改变了教育的时空结构。总结来说，教育综合基础知识涵盖了教育的...

氨基酸序列碎裂by离子-生物信息学笔记

weixin_43869337的博客

08-28

4657

b离子 y离子多肽有N端和C端，根据多肽的碎裂位置来定义b离子y离子。个人理解的规则如下：破碎后缺失N端的叫b离子，破碎后缺失C端的叫y离子

生物信息技术

07-31

生信

生物信息分析网站

05-01

北京大学生物信息学课程笔记（第一二周课程笔记）

xjw的博客

03-20

1361

课程笔记第一课第二课第一课课程涉及什么内容序列比对算法，如何在大量的基因序列中找到与我最相似的–blast 序列统计工具如何基于已知数据预测未知通过马尔可夫模型预测如何回帖到参考基因组鉴定一个人的遗传变异如何计算基因表达差异案例实践什么是生物信息学 染色体内的基因组就像是人的说明书四个碱基ATCG，so simple， yet so mysterious. 生物序...

北京大学生物信息学笔记-第一周-生物信息学概述

GUET_DM_LQ的博客

05-17

668

什么生物信息学？ [1] 基因组：生命手册 [2] 人类基因组有31亿碱基对 [3] 碱基编码基因占~2.9% [4] ~97%的基因以前被称为是"垃圾“ [5] 他们包含编码指令的调节元素——什么时候，在哪里，制造多少蛋白质 Bioinformatics: an interdisciplinary field that develops and applies computer and computational technologies to study biomedical questions 生物信

生物信息脚本练习（4）按照行列合并文件

07-30

471

这是个新的需求，要求把如下的两个2X5 的文件合并成一个3X5 的。 Program2_1.txt Seq Length cog4 210 cog2 94 cog3 210 cog1 113 cog5 152 Program2_2.txt Seq Depth cog5 93 cog1 110 cog2 114 cog4

《算法导论》学习笔记—算法基础

xiaowanghuo的博客

02-15

407

主要是整理了算法导论的前几章。算法分析主要是分析算法所占用的内存、通信宽带、计算机硬件、其中最重要的是计算时间。算法所用的时间通常与输入的规模同步增长。用T(n)表示算法的时间复杂度，表示算法所花费的时间。假设：单处理器计算模型（RAM）。指令一条接一条执行，没有并发操作。在这样的假设下算术指令、数据移动指令、控制指令所需时间为常量时间。设计算法的方法：分治法将原问题分解为几个规模较小但类似于

python求一组数的最大值_python快速求一个数组的最大值/最小值及其索引

weixin_39849153的博客

11-21

3765

enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标。x = [3, 2.2, 7.4, 6, 4]list(enumerate(x))# 输出 [(0, 3), (1, 2.2), (2, 7.4), (3, 6), (4, 4)]operator.itemgetter()函数用于获取对象的哪些维的数据，参数为想要取的一些维度序号...

生物信息学算法笔记

FanJin的博客

05-19

1万+

入门生物信息学，选了一条比较难的路，直接从底层算法开始，这种做法其实不太明智。读了"Algorithms on Strings, Trees and Sequences"，一本厚厚的算法书，后半部分其实读得有些粗糙。今天读完了第一遍，总的来说还是有些收获，将笔记记录于此。全书总共分为四部分：基本字符串算法、后缀树算法、非精确匹配算法、映射与测序。基本字符串算法以KMP为代表，这个是基本功，而且...

生物信息学基本知识笔记

GeekFocus

02-21

2368

Bam文件 SAM（The Sequencing Alignment/Map Format）是bwa比对软件的标准输出文件，是纯文本文件，bwa的开发者设计了一种比gz更加高效的压缩算法，BAM的文件大小差不多只有原来的1/6。 header头文件 @HD是必须的标准头文件；@SQ参考序列染色体信息，顺序必须和参考序列一致；@RG重要Read group信息，通常包含测序平台测序文库和样本id...