自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 1024程序员节,节日快乐

1024

2022-10-24 09:27:32 758 1

原创 Python常用模块总结

os模块os.remove() 删除文件os.unlink() 删除文件os.rename() 重命名文件os.listdir() 列出指定目录下所有文件os.chdir() 改变当前工作目录os.getcwd() 获取当前文件路径os.mkdir() 新建目录os.rmdir() 删除空目录(删除非空目录, 使用shutil.rmtree())os.makedirs() 创建多级目录os.removedirs() 删除多级目录os.stat(file) 获取文件

2022-05-17 20:21:18 479

原创 Python 进阶教程笔记

面向对象编程一、什么是面向对象编程程序设计的范式抽象并建立对象模型程序是不同对象相互调用的逻辑二、Python类的定义与实例化在Python中,通过class关键字定义一个类,比如我们需要定义一个人的类。按照 Python 的编程习惯,类名以大写字母开头。因此可以这样定义:class Person: pass注意,在这个Person类的定义里面,并没有继承任何类,除了这样定义以外,还可以有以下两种定义方式。class Person(): pass class Person(ob

2022-05-02 09:11:23 1427

原创 Docker教程(超全总结)

Docker基础+进阶总结,让你一文读懂Docker

2022-04-20 10:55:43 47571 11

原创 Python 类型提示和静态类型检查

介绍在本文中,将了解 Python 类型检查 (Type-Checking) 。在本教程中,将了解以下内容:类型注释和类型提示将静态类型添加到代码中,包括你的代码和其他人的代码运行静态类型检查器在运行时强制类型视频介绍如下: Python 类型提示和静态类型检查 类型系统所有编程语言都包含某种类型系统,该系统形式化了它可以使用哪些类别的对象以及如何处理这些类别。例如

2022-04-16 11:30:00 1907

原创 使用 Python Poetry 进行依赖管理

简介当您的 Python 项目依赖于外部包时,您需要确保使用每个包的正确版本。更新后,软件包可能无法像更新前那样工作。Python Poetry 这样的依赖管理器可帮助在项目中指定、安装和解析外部包。这样,可以确保始终在每台机器上使用正确的依赖版本。在本文中,将介绍:开始一个新的Poetry 项目将Poetry 添加到现有项目使用pyproject.toml文件引脚依赖项安装依赖项poetry.lock执行基本的 Poetry CLI命令使用Poetry将帮助启动新项目、维护现有项目

2022-04-15 11:30:00 2419

原创 使用 Mypy 进行 Python 静态类型检查

介绍Python 是一种动态类型语言。它在运行时而不是编译时确定数据类型。Python 类型的一些示例包括整数、浮点数、字符串和布尔值。动态类型语言与静态类型语言(如 C++、Java 和 Fortran)形成对比,后者在编译时执行类型检查。动态类型语言(如 Python)的一个优点是程序员不需要为每个声明的变量指定类型。相反,Python 解释器在运行时推断并分配一个类型。与使用静态类型语言(如 Java)相比,这导致更简洁的代码可以更快地编写。这种简洁的风格也有其缺点。因为解释器更努力地填充 Py

2022-04-14 11:01:34 1377

原创 Python f-string字符串格式化的介绍

从 Python 3.6 开始,f-strings 是一种很好的格式化字符串的新方法。它们不仅比其他格式化方式更易读、更简洁、更不容易出错,而且速度也更快!在本文结束时,您将了解如何以及为什么从今天开始使用 f-string。 Python f-string字符串格式化的介绍 Python 中的“老派”字符串格式在 Python 3.6 之前,有两种主要方法可

2022-03-21 14:58:22 4166

原创 使用 RGL 制作交互式 3D 散点图

介绍本 R 教程 逐步描述了如何使用 rgl包 构建 3D 图形。RGL 是一个 3D 图形包,可生成实时交互式 3D 绘图。它允许交互式旋转、缩放图形和选择区域。rgl 包还包括一个名为 R3D 的通用 3D 接口。R3D 是本文末尾描述的通用 3D 对象和函数的集合。内容14913字 32图!安装 RGL 包install.packages("rgl")在 Linux 操作系统上,可以按如下方式安装rgl包:sudo apt-get install r-cran-rgl加载

2022-01-20 15:55:42 4161

原创 系统发育基因组学(Phylogenomics)的介绍以及实操

Phylogenomics写在前面关于系统发育基因组学的内容,本文参考了 Mike Lee 的文章,有一个相关的视频,时长为32‘51‘‘ 感兴趣的可以点击下方进入观看。 系统基因组学:推断微生物之间的进化关系 什么是系统基因组学?用一个容易理解但是不准确的概念来表示: 系统基因组学正试图在基因组水平上推断进化关系。因为在实践中,我们并没有关注的所有生物体整个基因组。并且根据

2022-01-13 09:50:14 6838

原创 使用Gviz包实现基因组数据可视化

Gviz包介绍Gviz软件包简介Gviz软件包旨在提供一个结构化的可视化框架,以沿着基因组坐标绘制任何类型的数据。它还允许整合来自UCSC或ENSEMBL等来源的公开基因组注释数据。与大多数基因组浏览器一样,单独类型的基因组特征或数据由单独的Track表示。默认情况下,Gviz 检查所有提供的染色体名称在 UCSC 上的有效性(染色体必须以 chr 字符串开头)。可以决定通过调用 options(ucscChromosomeNames=FALSE) 来关此功能在以下示例中,将利用小鼠 mm9.

2022-01-07 16:08:10 4381

原创 R数据可视化|使用Scatterplot3d包制作3D散点图

介绍R 中有许多包(RGL、car、lattice、scatterplot3d等)用于创建3D 图形。本教程介绍了如何使用 R 的 scatterplot3d包 在 3D 空间中生成散点图。scaterplot3d 使用起来非常简单,可以通过在已经生成的图形中添加补充点或回归平面来轻松扩展。它可以很容易地安装,因为它只需要一个已安装的 R 版本。安装并加载 scaterplot3dinstall.packages("scatterplot3d")library("scatterplot3d

2021-12-31 09:38:10 17425 2

原创 使用最长公共子序列算法进行序列比对

介绍在分子生物学中,DNA 和蛋白质可以表示为字母序列。DNA 序列由 A、T、G、C 组成,代表核苷碱基(nucleobases) 腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶。蛋白质由 20 个不同的字母组成,表示 20 种不同的氨基酸。比较来自同一生物体或来自不同生物体的两个序列,称为 序列比较 (Sequence comparison),是分子生物学中的一项重要任务。它有助于为许多生物学问题提供解决方案,例如:预测蛋白质的结构和功能推断物种的进化历史和相关性定位基因/蛋白质中的常见子序列以识

2021-12-26 13:45:36 1377

原创 PyPubMed|好用的免费文献检索神器

写在前面其实这个工具在年初的时候使用过,最近翻看自己以前的笔记时候又看到了。我觉得这款工具是很不错的文献检索工具,具体的操作以及参数也比较简单。搜索指定关键词就可以查到相关的文献名称、摘要(CN/EN)以及DOI号等信息。对于了解相关领域/关键词的文献还是很有帮助。公众号:生信技术工具开发作者:苏庆东安装 PyPubMed# 要求Python环境 Python3.6+ pip3 isntall pypubmed#若安装速度太慢报错,可使用镜像来加速,输入下面命令:# 清华镜像pip

2021-12-21 15:06:10 1642 2

原创 使用同源建模预测蛋白质结构

什么是蛋白质?蛋白质是大的生物分子,负责执行生物体细胞内的大部分功能,包括对刺激作出反应、作为其他反应的催化剂、将分子从一个地方运输到另一个地方以及执行细胞信号传导。就像 DNA 序列一样,蛋白质序列是一串分子,但与 DNA 序列不同的是,有20种不同的称为氨基酸的分子构成了蛋白质序列。蛋白质结构每个1D 蛋白质序列串都折叠成3D 结构。这些 3D 蛋白质结构决定了蛋白质如何响应各种环境以及它与哪些其他分子相互作用,因此对于蛋白质执行其功能的能力至关重要。蛋白质的 3D 结构是通过提供蛋白质中每个原子

2021-12-10 09:06:10 7545

原创 基因表达数据的聚类分析方法

介绍基因表达(gene expression) 是指将来自基因的遗传信息合成功能性基因产物的过程。基因表达产物通常是蛋白质,但是非蛋白质编码基因如转移RNA(tRNA)或小核RNA(snRNA)基因的表达产物是功能性RNA。所有已知的生命,无论是真核生物(包括多细胞生物)、原核生物(细菌和古细菌)或病毒,都利用基因表达来合成生命的大分子。基因编码并可用于合成蛋白质,这个过程称为基因表达。在像人类这样的高等生物中,根据细胞类型(神经细胞或心脏细胞)、环境和疾病状况等各种因素,数以千计的基因以不同的量

2021-11-23 16:45:09 10374

原创 进化树构建之邻接法(Neighbor-Joining)的介绍

进化树构建进化树构建的问题是推断可能产生给定基因序列数据的进化树的拓扑结构和分支长度。推断树中叶节点的数量应等于给定数据中基因序列的数量。Neighbor-Joining AlgorithmNeighbor-Joining (NJ)树推理方法最初是由 Saitou 和 Nei 于 1987 年编写的。它属于一类基于距离的方法用于构建进化树。 NJ 方法采用给定序列之间的成对进化距离矩阵来构建进化树。Neighbor-Joining是一种***bottom-up*** 的聚类方法,常被用于系统发育树

2021-11-23 16:08:36 22262 2

原创 进化树相关概念和类型介绍

介绍来自形态、生化和基因序列数据的证据表明,地球上的所有生物都具有遗传相关性,生物的谱系关系可以用一棵巨大的进化树、生命之树或进化树来表示。进化树是一种图,其中正在研究的序列表示为叶节点(leaf nodes),内部节点和分支描述序列之间的进化关系。 在大多数情况下,DNA 序列是来自不同生物体(organisms)的基因序列,可能代表生物体的实际进化。进化树分别来自人类、黑猩猩、小鼠和鱼类物种的 4 个基因序列 Human1 、 Chimpanzee1 、 Mouse1 和 Fish1 。我们还

2021-11-22 14:21:02 6718

原创 OrthoFinder 进行直系同源基因分析教程

介绍OrthoFinder 是一个快速、准确和全面的比较基因组学平台。 它找到正交群(orthogroups)和直系同源(orthologs),推断所有正交群的有根基因树,并识别这些基因树中的所有基因复制事件。它还为被分析的物种推断出一个有根的物种树,并将基因复制事件从基因树映射到物种树的分支。OrthoFinder 还为比较基因组分析提供全面的统计数据。 OrthoFinder 使用简单,运行它所需的只是一组 FASTA 格式的蛋白质序列文件(每个物种一个)。总的来说,它将要分析的物种的蛋白质组作为

2021-11-19 15:08:00 4684 2

原创 Snakemake 常用参数以及进阶用法介绍

写在前面上一篇介绍了 Snakemake 入门教程 做了一个简单的示例,具体查看我的上一篇内容下面会介绍一下 Snakemake的常用参数以及进阶的用法~介绍之前大家可以看一个视频了解一下(时长:19min14s, 选择性观看) Snakemake的简单介绍 参数介绍命令行参数内核数调用$ snakemake --cores 1# 指定多个可用内核$ snake

2021-11-12 14:41:55 6337

原创 Snakemake 入门教程(创建一个简单的工作流)

写在前面既然写了教程就需要具有普适性,能适合大多数人的胃口,我这部分的内容以及示例主要还是参考了官方教程,但是都是我一步一步跑过的流程,所以会更有印象,送给想学 Snkaemake 但是一直没有去学的朋友们,这些内容对于有生信基础的人来讲,上手会很快,因为很多的生信软件都使用过,写起来也就没有那么晦涩,下面开始~Snakemake 定义Snakemake 工作流管理系统是一种用于创建可重复和可扩展的数据分析的工具。工作流是通过一种人类可读的、基于 Python 的语言来描述的。它们可以无缝扩展到服务

2021-11-10 22:36:48 7491

原创 学习生物信息学的十条准则

介绍测序技术正变得比以往任何时候都更加先进和实惠。作为回应,不断壮大的国际联盟,例如地球生物基因组计划 (EBP) 、万种脊椎动物基因组计划 (G10K)、全球无脊椎动物基因组联盟 (GIGA) 、5000种昆虫基因组(i5K)、万种植物基因组计划(10KP),还有许多组织制定了对地球上所​​有生命进行测序的宏伟计划。这些联盟旨在利用基因组数据来揭示我们星球生物多样性的生物学秘密,并将这些知识应用于现实世界的问题,例如提高我们对物种进化的理解,协助保护受威胁的物种,以及确定新的医学目标,农业或工业用途。

2021-11-05 16:28:27 881

原创 rust-mdbg 一款用于基因组组装的高效率软件

写在前面rust-mdbg 是一种超快的minimizer-space de Bruijn graphs (mdBG) 实现,适用于组装长而准确的读数,例如PacBio HiFi。随着18年以来Pacbio HiFi reads的出现,让一些复杂基因组的组装不再复杂,而且有越来越多的课题组也加入到了基因组学的研究中,正是因为有了高精度长读长的reads,目前也产生了很多专门用于HiFi组装的软件,如Hifiasm,当然这篇文章的软件的算法,可以用超短时间,低内存去组装。我相信随着不断的发展,以后做组装的

2021-10-31 12:16:02 1691

原创 #1024程序员节# 节日快乐

1024也是程序员自发认定的节日,表明10月24日,是程序员节,这是由于信息量的单位1GB=1024MB,1MB=1024KB,1KB=1024Byte,程序员们就把1024作为了一种表示自己身份的符号1024。

2021-10-24 11:16:35 395

原创 WGDI 分析全基因组复制事件完整流程

简介WGDI(全基因组重复识别),一种基于 Python 的命令行工具,可让研究人员深入了解递归多倍化并进行跨物种基因组比对分析。官方文档下一篇会选择一个物种的分析结果做示例。安装## 1.使用conda安装conda install -c bioconda wgdi## 2.使用pip安装pip install wgdi## 3.本地安装git clone https://github.com/SunPengChuan/wgdi.gitcd wgdipython set

2021-09-06 19:16:25 9714 3

原创 lrzsz(Linux服务器和Mac互传文件工具)

安装Mac电脑安装# 本地电脑安装brew install lrzsz# 下面安装两个脚本文件wget https://hub.fastgit.org/aikuyun/iterm2-zmodem/blob/master/iterm2-recv-zmodem.sh -P /usr/local/binwget https://hub.fastgit.org/aikuyun/iterm2-zmodem/blob/master/iterm2-send-zmodem.sh -P /usr/local/bi

2021-08-31 15:42:32 568

原创 JGI Phytozome 批量下载的几种方法

方法一登陆账号curl 'https://signon.jgi.doe.gov/signon/create' --data-urlencode 'login=*****' --data-urlencode 'password=*****' -c cookies > /dev/null# ****处修改为账号与密码下载所有文件的列表curl 'https://genome.jgi.doe.gov/portal/ext-api/downloads/get-directory?organism

2021-08-06 19:06:14 6364

原创 ALLHIC使用 | HiC辅助基因组组装(三)

安装git clone https://github.com/tangerzhang/ALLHiCcd ALLHiCchmod +x bin/*chmod +x scripts/* export PATH=/your/path/to/ALLHiC/scripts/:/your/path/to/ALLHiC/bin/:$PATH依赖软件samtools v1.9+bedtoolsmatplotlib v2.0+写在前面ALLHIC官网提供了很详尽的内容,以及完整的pipeline

2021-08-06 18:00:41 3748

原创 HiC-Pro的使用 | HiC辅助基因组组装(一)

定义之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下在这里不做赘述。软件安装新版本建议使用目前最新的3.0.0版本(需要root权限)安装方法如下:# 创建conda环境conda create -y -n hic-pro python=3.7 pysam bx-python numpy scipy samtools bowtie2 iced# 下载HiC-Pro最新版本wget https://hub.fastgit.org/nservant/HiC

2021-07-19 08:24:17 5929 1

原创 3d-DNA的使用及juicebox调整挂载到染色体水平 | HiC辅助基因组组装(二)

定义之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下在这里不做赘述。软件安装3d-DNA$ git clone https://hub.fastgit.org/aidenlab/3d-dna.git$ cd 3d-dna$ chmod 755 run-asm-pipeline.sh$ chmod 755 run-asm-pipeline-post-review.shor#github安装(2021年7月18日-目前的最新版本)$ wget http

2021-07-19 08:19:25 9194 5

原创 Linux 文件内容大小写转换

一、文件如果是单个文件,用cat file | tr a-z A-Z > newfile可以将文件内容转换为大写。cat file | tr A-Z a-z > newfile可以转换为小写。也可以用awk '{print toupper($1)}' file > newfile二、vim编辑 vim中大小写转化的命令是:gu或者gU,形象一点的解释就是小u意味着转为小写,大U意味着转为大写。接下来说明对这两个命令的限定(限定操作的行,字母,单词)等等。1.整篇文章大写转化为小

2021-07-17 11:32:09 7309 1

原创 使用hifiasm组装hifi基因组的方法介绍

目前用于Pacbio HIFI测序数据的组装软件主流上有:FALCON、Hifiasm、Hicanu三款。Hifiasm的使用介绍Hifiasm是用于PacBio Hifi读取的快速单倍型解析的从头汇编程序。它可以在几个小时内组装一个人类基因组,并与加利福尼亚红木基因组(迄今为止测序最复杂的基因组之一)一起工作。Hifiasm可以生产质量最好的组装商的初级/替代组装。它还引入了新的图合并算法,并在给定三重数据的情况下实现了最佳的单倍型解析程序集。软件安装#使用conda安装conda insta

2021-04-27 11:28:59 11684 11

原创 使用hicanu组装hifi基因组的方法介绍

介绍Canu专门组装PacBio或Oxford Nanopore序列。Canu分为三个阶段:校正、修整和装配。校正阶段将提高读取中基数的准确性。微调阶段将微调显示为高质量序列的部分的读取,删除可疑区域,如剩余的SMRTbell适配器。组装阶段将把读取排序为重叠,生成一致序列,并创建备用路径图。输入序列可以是FASTA或FASTQ格式,未压缩或用gzip(.gz)、bzip2(.bz2)或xz(.xz)压缩。请注意,不支持zip文件(.zip)。官方测试数据下载下面包括了pacbio、Nanopore

2021-04-27 11:26:56 5563

原创 Hi-C辅助基因组组装技术以及其常用的软件介绍

导语Hi-C是高通量染色体构象捕获(High-throughput Chromosome Conformation Capture, Hi-C)技术的简称,开发于2009年,最初用于捕获全基因组范围内所有的染色质内和染色质间的空间互作信息,目前已应用于基因表达的空间调控机制研究、构建染色体水平参考基因组、构建单体型图谱等。Hi-C技术源于染色体构象捕获(Chromosome Conformation Capture, 3C)技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染

2021-04-27 11:20:04 3468 1

原创 Linux三剑客grep、sed、awk的使用

Linux正则表达式正则表达式:Regual Expression, REGEXP由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能;分两类:基本正则表达式:BRE扩展正则表达式:ERE正则表达式的意义处理大量的字符串处理文本通过特殊符号的辅助,可以让linux管理员快速过滤、替换、处理所需要的字符串、文本,让工作高效。通常Linux...

2021-04-22 12:00:00 830

原创 Hi-C辅助基因组组装原理|主流软件

导语Hi-C是高通量染色体构象捕获(High-throughput Chromosome Conformation Capture, Hi-C)技术的简称,开发于2009年,最初用于捕获全基因组范围内所有的染色质内和染色质间的空间互作信息,目前已应用于基因表达的空间调控机制研究、构建染色体水平参考基因组、构建单体型图谱等。Hi-C技术源于染色体构象捕获(Chromosome Conforma...

2021-04-03 13:00:00 4351

原创 如何进行基因组注释

定义基因组注释:是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释:即在一条DNA序列上,通过从头、同源、结构定义等多种方法,搜寻并定义基因组原件,得到其位置、序列、结构、功能等信息。基因组注释流程图基因组注释前期准备物种拉丁名,例如:Orazy sativa,基因id:Osa000001同源物种: 一般选5个左右物种,需要有注...

2021-02-08 13:00:00 10241

原创 利用HIFI测序数据进行基因组组装|hifiasm

目前用于Pacbio HIFI测序数据的组装软件主流上有:FALCON、Hifiasm、Hicanu三款。Hifiasm的使用介绍Hifiasm是用于PacBio Hifi读取的快速单倍型解析的从头汇编程序。它可以在几个小时内组装一个人类基因组,并与加利福尼亚红木基因组(迄今为止测序最复杂的基因组之一)一起工作。Hifiasm可以生产质量最好的组装商的初级/替代组装。它还引入了新的图合并算法,...

2021-02-06 08:00:00 5054

原创 不同测序数据应用与基因组组装|Canu

介绍Canu专门组装PacBio或Oxford Nanopore序列。Canu分为三个阶段:校正、修整和装配。校正阶段将提高读取中基数的准确性。微调阶段将微调显示为高质量序列的部分的读取,删除可疑区域,如剩余的SMRTbell适配器。组装阶段将把读取排序为重叠,生成一致序列,并创建备用路径图。输入序列可以是FASTA或FASTQ格式,未压缩或用gzip(.gz)、bzip2(.bz2)或xz(.x...

2021-02-06 07:00:00 816

原创 Markdown使用教程|入门指南

title: Markdown使用教程|入门指南date: 2021-01-17 15:59:24tags:- Markdown- 教程categories: Markdown点击进入我的个人网站导语这是我的第一篇文章,写博客主要目的是把自己所学到的知识整理归纳起来,自己每次总结的过程也是不断学习重复巩固的过程,因为博文的编写需要用到Markdown所以下面先介绍一下具体的使用方法Markdown是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的XHTML.

2021-01-31 16:52:47 1413

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除