生信情报站
文章平均质量分 82
生信情报站主要结合生信理论知识以及详细的实践操作来解决大家在生物信息分析学习中遇到的困难。部分文章是自己学习过程中写的文章,不免有疏忽的地方,欢迎在评论中指出。
白墨石
生物信息学在读博士,主要研究生信软件开发及数据库搭建,涉及机器学习,组学流程自动化,序列分析。
联系方式在左栏,欢迎学习交流,咨询提问 ^.^
展开
-
基因组坐标系统的 0-based 和 1-based(图文详解)
基因组坐标中的 “0-based” 和 “1-based” 是两种不同的规范,用于表示基因组上的位置。它们在不同的上下文和文件格式中可能会有不同的使用方式。原创 2023-11-20 11:16:01 · 600 阅读 · 0 评论 -
图文详解 VCF 生信格式 (变异信息)
vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息一般用在 单核苷酸变异(SNV),小片段插入缺失(INDEL)等也用于 拷贝数变异(CNV),SV(结构变异)等SNV:参考基因组在1号染色体7845190为 C,但检测样本在同样位置为 AINDEL:包含插入和缺失两种。原创 2023-11-09 12:21:41 · 4622 阅读 · 0 评论 -
git commit 规范及自动化
commit message需要包括两部分内容:header和body。原创 2023-10-06 11:00:28 · 849 阅读 · 0 评论 -
一文读懂 UniProt 数据库(2023 最新版)
Uniprot (*Universal Protein* )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。原创 2023-01-17 13:29:04 · 10722 阅读 · 3 评论 -
一文读懂相分离(图文详解)
相分离本身是一个物理化学概念,二元或多元混合物会在一定的条件下分离为不同的相。生活中可以见到水上漂浮的油滴,就是一种相分离现象。一共两种相,即水和油,由于都是液体,也叫液液相分离()。回顾下我们幼儿园学过的知识:生物进化过程中,在细胞内会用膜分割一些执行特定生物学功能的空间,称为有膜细胞器,这其中就有我们熟悉的线粒体,高尔基体等。这样的好处是方便构建特定反应体系和反应环境,并避免膜内蛋白或反应物质影响外界环境。比如,线粒体的细胞色素 C 如果释放到胞质内,将导致细胞凋亡。原创 2022-10-28 19:21:30 · 8213 阅读 · 4 评论 -
生物序列比对的几种应用场景(图文)
今天和大家讨论几种序列比对的应用场景,当然只是抛转引玉,如果小伙伴有其他应用场景,欢迎讨论。原创 2022-05-16 18:47:18 · 2086 阅读 · 0 评论 -
数据库涉及大量数据查询时的注意事项
避免频繁连接和关闭数据库,这样会导致IO访问次数太频繁。设计表时要建立适当的索引,尤其要在 where 及 order by 涉及的列上建立索引避免全表扫描,以下情况会导致放弃索引直接进行全部扫描避免在 where 子句中使用!=或<>操作符避免在 where 子句中对字段进行 null 值判断select id from table where num is null解决方法:建表时设置默认值0,也就是将null用0填充,然后查询:select id fr..原创 2022-05-16 11:44:30 · 1544 阅读 · 0 评论 -
生物信息学导师推荐(持续更新)
本系列会持续更新,帮助大家找到更适合自己的导师,注意排名不分先后,接下来我们开始介绍:陈润生])单位:中国科学院生物物理研究所方向:长非编码RNA以及编码小肽的系统发现和功能机制研究成果:参加人类基因组1%和水稻基因组工作草图的研究;非编码RNA数据库NONCODE主页:http://people.ucas.ac.cn/~runshengchen邮箱: crs@ibp.ac.cn刘小乐单位:Harvard Medical School方向:表观遗传,癌症,发育成果:MACS(Mod原创 2022-01-05 20:57:22 · 6682 阅读 · 1 评论 -
从水果连连看到两条序列比对
一、序列比对 Sequence Alignment序列比对(sequence alignment),是目前生物学的基本研究方法。过程类似连连看,规则就是如果上下两行代表两条序列,如果上下一样就可以计分,我们来试一试:现在把水果换成碱基,如果可消除中间连线,我们再来看下AACGGGGTG | ||| |CATGGGATT我们已经实现了一个简单的序列比对。序列比对最终结果可以获得序列相似性比对值,然后通过统计学分析后,得到序列间的相似性与同源性,以及它们的显著性水平即可进行生物信息分析。如原创 2021-10-24 14:41:50 · 6760 阅读 · 0 评论 -
用 Zotero 高效管理文献(图文详解)
一、下载与安装下载网址:https://www.zotero.org/download注册网址:https://www.zotero.org/user/register二、同步设置这一步极其重要,是 Zotero 强大功能的起点,我们可以将感兴趣的论文的 PDF,文献信息存放在云端,结合PDF 阅读器,甚至可以把 PDF 上的笔记一起保存到云端。当有需要的时候,可以从浏览器,电脑,手机,平板来访问这些信息。1、进入首选项2、输入刚刚注册信息,登录电脑版 Zotero,点击设置同步3、同步原创 2021-10-07 20:53:32 · 8082 阅读 · 0 评论 -
Ubuntu 服务器安装远程 Rstudio(图文详解)
文章目录一、环境二、安装三、常用操作重启关闭启动检测配置文件查看状态四、配置`rserver.conf` 配置清单`rsession.conf` 配置清单一、环境系统:Debian 10 / Ubuntu 18 / Ubuntu 20R版本:> 3.0二、安装sudo apt-get install r-basesudo apt-get install gdebi-corewget https://download2.rstudio.org/server/bionic/amd64/rst原创 2021-10-07 20:12:20 · 5021 阅读 · 0 评论 -
解析 Ensembl 的数据库服务器
Ensemble 对于学习生物信息学的我们来说应该是如数家珍了,但是我们平时常用到的操作一般是去查基因,下载基因组,这些都是通过网页端来完成:http://uswest.ensembl.org/index.html上面网页展示的就像大家进入某宝商店中的商品展示图,而真正的货物是存放在仓库的。Ensemble 则是将其“货物”是存放在数据库服务器中。理解 Ensemble 的数据库存储结构与架构,对于我们的今后的生信研究工作大有裨益。接下来,我们进入 Ensemble 的数据仓库世界,去看看它的货物有原创 2021-09-15 21:06:38 · 7483 阅读 · 0 评论 -
保姆级 IGV 基因组浏览器使用指南(图文详解)
一、软件下载http://software.broadinstitute.org/software/igv/download这里以下载 Windows 版本为例,下载带有 Java 的版本,方便安装。由于大部分数据是通过服务器跑出的结果,所以也有小伙伴有在 Linux 服务器端使用的需求。这里推荐几种方式:配合远程控制软件来使用,国产推荐 Todesk,向日葵话说目前有部分单位禁止远程软件,推荐结合 Jupyter 来使用建立 FTP 来通过 url 访问建议最好安装在固态硬盘所在分原创 2021-08-06 08:22:13 · 32578 阅读 · 1 评论 -
生信软件 | STAR(测序序列与参考序列比对)
文章目录零、介绍一、安装二、使用1、建立索引2、STAR 比对三、原理聚类、拼接和评分零、介绍STAR (Spliced Transcripts Alignment to a Reference),用于将测序的 Read 对齐到参考基因组的比对软件,常用于 RNAseq。因其具有较高的准确率,映射速度较其他比对软件高 50 多倍,因此作为 ENCODE 项目的御用 pipeline 工具。不得不提的是,它需要占用大量内存,对计算资源有较高的要求。一、安装conda install -c biocon原创 2021-07-14 22:13:35 · 19733 阅读 · 7 评论 -
单细胞分析的 Python 包 Scanpy(图文详解)
文章目录一、安装二、使用1、准备工作2、预处理过滤低质量细胞样本3、检测特异性基因4、主成分分析(Principal component analysis)5、领域图,聚类图(Neighborhood graph)6、检索标记基因7、保存数据8、番外一、安装如果没有conda 基础,参考: Conda 安装使用图文详解(2021版)pip install scanpyconda install -y -c conda-forge leidenalg二、使用1、准备工作# 载入包import原创 2021-07-14 18:00:30 · 33273 阅读 · 20 评论 -
一文读懂参考基因组和基因组注释+最全下载方法
文章目录一、什么是参考基因组和基因组注释?二、参考基因组版本命名1、常用人参考基因组对应表2、常用小鼠参考基因组对应表三、下载1、NCBI2、Ensemble3、GENCODE4、UCSC5、iGenomes四、其他参考基因组信息一、什么是参考基因组和基因组注释?先来理一理参考基因组,基因组注释文件,测试数据间的关系。自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因原创 2021-06-02 22:26:12 · 57657 阅读 · 2 评论 -
scanpy 单细胞分析包图文详解 01 | 深入理解 AnnData 数据结构
一、环境准备:搭建 Python 高效开发环境: Pycharm + Anaconda二、安装 scanpypip install scanpy三、AnnData1、AnnData 介绍与结构AnnData 是用于存储数据的对象,一般作为 scanpy 的数据存储格式。主要由以下几部分构成:功能数据类型adata.X矩阵数据numpy,scipy sparse,matrixadata.obs观察值数据pandas dataframeadata.v原创 2021-04-23 20:53:13 · 7836 阅读 · 2 评论 -
详解 R 语言的PCA与TSNE的降维聚类
为了查看降维聚类的可视化效果,我们先用相似样本降维聚类,然后使用具有差异的样本查看聚类效果。同时使用 PCA 与 TSNE 来观察两种不同方法的聚类效果。文章目录一、相似样本的降维聚类1、载入所需的包2、构建两个相似样本数据集3、绘制热图4、绘制PCA5、绘制TSNE二、差异样本的降维聚类1、构建第三个具有差异的数据集2、绘制热图3、绘制PCA4、绘制TSNE全部代码一、相似样本的降维聚类1、载入所需的包rm(list=ls())library(pheatmap)library(Rtsne)原创 2021-04-22 10:49:45 · 5057 阅读 · 0 评论 -
最新 NCBI 上传测序数据教程 (图文详解)
1、登录或注册用户网址:https://www.ncbi.nlm.nih.gov/account/2、进入SRA网址:https://submit.ncbi.nlm.nih.gov/向下滚动,找到Sequence Read Archive (SRA)工具,点击Submit2、新建提交3、按要求填写信息4、使用ascpascp -i /mnt/h/work/aspera.openssh -QT -l100m -k1 -d /mnt/h/work/ncbi_upload/raw/ sub原创 2021-04-14 15:30:17 · 23875 阅读 · 4 评论 -
转录组自动化分析流程搭建及使用
这次分析流程搭建使用基于Nextflow 的 nf-core,该工具可以实现自动化的转录组上游分析。官网:https://nf-co.re/rnaseqGitHub:https://github.com/nf-core/rnaseq安装 nf-core rnaseq可以使用Git clone,也可以下载好解压到流程目录安装Nextflowcurl -s https://get.nextflow.io | bash检测版本是否符合nf-core使用,可以升级nextflow self-upd原创 2021-03-22 19:35:09 · 1574 阅读 · 0 评论 -
图解三代测序(SMRT Sequencing)
文章目录一、基本原理二、构建文库三、测序芯片四、上机测序五、测序模型1、Circular Consensus Sequencing (CCS)2、Continuous Long Read (CLR) Sequencing六、其他影响因素1、GC bias 影响2、读长的限制因素3、测序通量目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single Molecule Real-Time(SMRT)Sequencing。原创 2021-03-03 19:57:37 · 16114 阅读 · 2 评论 -
最新最全 VSCODE 插件推荐(2024版)
文章目录一、主题及图标GitHub ThemeMaterial ThemeMaterial Icon Themevscode-icons二、功能强化settings syncwakatimePolacodeChinese (Simplified) Language Pack for Visual Studio Code三、Git 集成插件GitHub Pull requestsGit GraphCodeStream: GitHub, GitLab, Bitbucket PRs and Code Review原创 2021-02-20 11:38:07 · 395903 阅读 · 90 评论 -
如何在 VSCODE 中高效使用 R 语言 (图文详解)
VSCODE 配置 R一、功能特性展示之前一直在用 Rstudio 来编写 R,也尝试用过 Pycharm 配置 R 环境。但是由于现在需求要同时满足 Python,R 和网站要同时开发,为了避免来回切换不同的IDE,重复配置,还有路径一堆麻烦事。今天我们先介绍在 VSCODE 中配置 R 环境,看看它有什么特性足以让我们更改自己习惯。1、绘图2、查看及搜索数据3、多行输出4、鼠标悬停,显示函数文档5、鼠标悬停,显示变量信息6、格式化代码二、材料vscodeRvscode原创 2021-02-17 20:43:39 · 34707 阅读 · 55 评论 -
Hi-C 测序技术(图解详解)
文章目录一、介绍二、原理及步骤三、三维基因组检测技术比较1、C技术3C(一对一)4C(一对多)5C(多对多)Hi-C(全部互作)2、基于免疫沉淀技术ChIP-loopChIA-PET四、总结一、介绍Hi-C 技术源于基因组捕获技术(Chromosome conformation capture,3C),用于分析染色质三维空间结构的一种测序方法。1关于什么是三维基因组,可以参考:一文读懂三维基因组用途:量化在三维空间中基因组的染色质间交联(cross-linked chromatin)解析全基因原创 2021-02-06 14:33:32 · 24481 阅读 · 1 评论 -
图解三代测序(Nanopore)
一、测序原理先介绍 Nanopore 测序中的几位主角:Reader :在自然界中,有一种可以嵌入到细胞膜中作为离子或分子通道的跨膜蛋白,具有天然的蛋白纳米孔。经过人为基因工程修饰后,得到的就是 Nanopore 测序所需的 Reader 蛋白。Membrane:Reader 蛋白会被嵌入到高电阻率的 Membrane (人工合成的多聚物膜),膜两侧是离子溶液,在两侧加不同的电位,离子就会在孔中流动,形成电流。Motor:在 Nanopore 文库构建时,需要在接头上连接一种动力蛋白,用于将DN原创 2021-02-03 19:31:37 · 32242 阅读 · 2 评论 -
一文读懂三维基因组
文章目录一、细胞核 *Nucleus*二、染色质疆域 *Chromosome Territory,CT*三、染色质区室 *A/B compartments*四、拓扑结构域 *Topologically associating Domains,TAD*五、层关联域 *Lamina Associating Domains,LAD*六、核仁关联域 *Nucleolar Associating Domains,NAD*七、染色质环 *Chromatin loops*每个人体内都有着两米长的DNA,它是如何紧密折叠原创 2020-12-25 16:56:37 · 8128 阅读 · 0 评论 -
Python 自动化提取基因的 CDS
文章目录一、环境准备及背景介绍二、Python 实现三、使用示例数据介绍1、提取单个基因CDS2、提取多个基因CDS2、提取全部基因CDS一、环境准备及背景介绍Python 开发环境:搭建 Python 高效开发环境: Pycharm + AnacondaBiopython 序列处理:生物信息中的 Python 02 | 用biopython解析序列示例 Genbank 数据:下载链接Genbank 数据介绍:生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序原创 2020-12-21 09:59:27 · 4062 阅读 · 5 评论 -
白墨的生物信息自学之路
进入21世纪后,组学数据井喷式产出,随之而来的问题是如何处理这些数据,挖掘背后隐藏的价值。人们想到利用包括计算机,物理学,数学,统计学在内学科的优势去解析这些大数据,随之催生出一门新的交叉学科,这就是生物信息学。这门学科为生物进化,物种分类,育种技术,药物设计等领域起到巨大的推动作用。不仅使我们更加全面的认识生命,而且随之带来了丰厚的社会效益。这里记录了我学习生物信息时,在平坦道路上曲折前行的步伐。可以为打算学,正在学生物信息的同学提供一些参考,少走一些弯路。让我们一起披荆斩棘,乘风破浪。这.原创 2020-12-16 10:50:05 · 7861 阅读 · 20 评论 -
Markdown 数学公式写法与速查表
文章目录一、公式写法二、基础公式三、关系运算符四、集合运算符五、戴帽符号六、连线符合七、矩阵八、分段函数九、希腊字母一、公式写法公式语法:$$H(X) = -\sum{P(x)logP(x)}H(X)=−∑P(x)logP(x)H(X) = -\sum{P(x)logP(x)}H(X)=−∑P(x)logP(x)带标号的公式语法:$$H(X) = -\sum{P(x)logP(x)} \tag1$$H(X)=−∑P(x)logP(x)(1)H(X) = -\sum{P(x)logP(x)原创 2020-12-12 10:52:40 · 982 阅读 · 0 评论 -
Linux 远程复制文件和目录
一、命令格式:scp 文件/目录路径名 root@ip地址:文件/目录路径名1、从远程服务器复制文件到本地scp root@183.175.59.73:/home/data ./data/2、从本地文件复制到远程服务器scp ./data/ root@183.175.59.73:/home/data3、从远程服务器复制目录到本地scp -r root@183.175.59.73:/home/data ./data/4、从本地目录复制到远程服务器scp -r ./data/ root@原创 2020-11-24 10:29:18 · 2831 阅读 · 1 评论 -
图解表观遗传学 | 组蛋白修饰
一、组蛋白结构在了解组蛋白修饰前,先复习一下幼儿园学过的组蛋白结构。我们都知道在细胞核中的染色体是高度压缩的,而折叠时DNA缠绕的就是组蛋白。将组蛋白区域放大,我们就会看到这样一串念珠,组蛋白被一根DNA序列串起来。为了方便研究,我们将一个组蛋白和其附近 147bp DNA片段,叫一个核小体。也就是说,核小体 = 组蛋白 + DNA(147bp)把组蛋白拆开来,它其实有八个部分来构成:组蛋白八聚体 = 2个H2B + 2个H2A + 2个H3 + 2个H4下面是检测到的组蛋白三维结构原创 2020-11-22 16:41:26 · 18115 阅读 · 3 评论 -
一文读懂 ChIPseq
一、介绍ChIP-seq,测序方法ChIP 指染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP),seq 指的是二代测序方法作用:识别蛋白质与DNA互相作用情况原理:染色质免疫共沉淀 + 二代测序应用:常用于转录因子结合位点和组蛋白修饰位点的研究二、测序原理1、使用甲醛将目标蛋白与染色质交联固定起来2、从细胞裂解液分离基因组DNA,通过超声打断DNA为一定长度的小片段3、添加与目标蛋白质特异的抗体,该抗体与目标蛋白形成免疫沉淀免疫结原创 2020-11-22 16:39:35 · 13303 阅读 · 3 评论 -
UCSC 基因组浏览器配置详解
一、配置参数UCSC基因组浏览器:传送门1、点击配置2、进入配置页面:点击刚刚运行的文件 BedGraph Format2、轨迹配置页面Type of graph :默认以bar,条形图来显示,选择point会以点或线来显示Track height :设置图形高度,像素为单位Data view scaling (boxed in red) :如果选中 use vertical viewing range setting选项,将使用 Vertical viewing range设置原创 2020-10-29 20:43:07 · 4485 阅读 · 0 评论 -
生信格式 | BedGraph(基因组浏览器绘制)
生信文件格式 | BedGraph(基因组浏览器绘制)一、特点及适用场景:后缀名.bedGraph允许以跟踪格式显示连续值的数据对于概率分数和转录组数据很有用如果bedGraph数据集非常大(超过5000万行 ),则可以使用该bedGraphToBigWig程序将其转换为bigWig格式bedGraph文件不能转换为 wig 文件。使用bigWigToWig将 bigWig 转换为bedGraph文件二、格式一共包含四列:chromA chromStartA chromEndA原创 2020-10-29 20:41:39 · 7980 阅读 · 0 评论 -
生信格式 | bigwig,bw (基因组浏览器绘制)
一、特点及适用场景:后缀名:.bw,.bigwigbigWig文件为索引二进制格式主要用于密集,连续的数据在处理大型数据集时,bigWig文件的显示性能比常规的wig文件快得多数据必须是连续的并且由大小相等的元素组成,如果数据是稀疏或包含大小不同的元素时,请使用bedGraph格式二、wig 转 bigwigBigWig文件可以使用wigToBigWig程序从wiggle(wig)格式文件转换得到1、 创建 wig 文件wig 文件转换为bigWig文件时,必须为每个数据轨迹创建一个单原创 2020-10-29 20:01:57 · 19439 阅读 · 6 评论 -
生信格式 | wig(基因组浏览器绘制)
文章目录介绍一、variableStep 格式1、特点及适用场景:2、格式:3、例子:二、fixedStep 格式1、特点及适用场景:2、格式:3、例子:三、数据值例子Wig,BigWig,BedGraph,这是几种在基因组浏览器上绘制图形的数据格式。不同的数据格式可以满足不同的显示需求,下面我们一一来看:介绍wig 文件全称叫 Wiggle Track Format, 用来绘制基因组上的图形轨迹的文件格式。wig 格式是较老的格式,用来显示密集且连续的数据,比如GC含量,概率分数,转录组数据等。原创 2020-10-29 19:41:38 · 5034 阅读 · 0 评论 -
生信软件 | Samtools(SAM文件处理工具)
介绍SAM(sequence Alignment/mapping) 数据格式是目前高通量测序中存放比对数据的标准格式转换 BAM 与 SAM 格式比对文件排序,建立fastq索引安装conda install -y samtools这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解使用1、常用的三个步骤转换 SAM 格式为 BAM 格式samtools view -S SRR00000.sam原创 2020-10-27 16:38:34 · 4396 阅读 · 0 评论 -
从零开始学统计 11 | 理解置信区间
置信区间假设现在测量了12个小鼠体重的值,注意这里只测量了12只小鼠(样本),而不是地球上的每一只小鼠(总体)取12个测量值,计算平均值,注意这里是样本均值,而不是总体均值(地球上所有小鼠的均值)理解样本均值与总体均值:https://zhenglei.blog.csdn.net/article/details/108392410但是,我们可以通过 Bootstrap 方法,确定一个比较合理的均值范围来代表小鼠总体均值随机选12个小鼠体重值Boostrap 是可放回抽样,意味着抽样时可原创 2020-10-24 12:27:44 · 3016 阅读 · 0 评论 -
从零开始学统计 10 | 通俗易懂的 P 值
文章目录怎么计算P值单尾与双尾的P值抽样分布单一分布中抽样两个独立分布中抽样怎么计算P值抛两次硬币,计算两次都为正(H)的概率计算的P值由三个部分组成:在观察到,在随机事件中发生的概率与之概率相等的事件的概率任何比观察的更罕见的事件发生概率抛 5 次硬币,计算都为正(H)的概率,与P值概率为P值由三部分组成:5个正面5个反面没有比这个事件更小的概率事件所以计算得到可以看到 p 值不小于 0.05(显著性阈值)计算四个正面,一个反面的概率:p 值由三部分组成原创 2020-10-24 12:23:36 · 24545 阅读 · 0 评论 -
玩转 Windows 自带的 Linux 子系统 WSL(图文指南)
学计算机离不开 Linux 系统,当然,更离不开Windows。但是,二者从操作到核心的不同,貌似让鱼和熊掌不可兼得。但是!微软已经拿出了一款让鱼和熊掌兼得的方案 WSL (Windows Subsystem for Linux),也就是 Windows 系统中自带 Linux 子系统。这比其他方案的优势在于:不会产生传统虚拟机或双启动设置开销实现 Windows 系统与 Linux 系统磁盘资源的共享相对其他 Bash,更接近原生 Linux 系统网络设置等配置与 Windows 系统保持原创 2020-09-23 19:33:04 · 8201 阅读 · 1 评论