探索者v-CSDN博客

原创【一起学生信】根据目标区域提取bam信息

测序完成得到的reads我们会比对到参考基因组得到bam文件，bam文件一般很大，很多时候我们只需要提取部分内容。根据参考基因组位置提取根据指定基因组区域的提取bam，可以使用以下命令。samtoolssamtools view -hb chr:start-end wgs.sort.bam > target.region.bam# 根据bed文件来提取samtools vie...

2019-04-02 16:49:44 21302 1

原创【深入UCSC Genome Browser】repeats-RepeatMasker

RepeatMasker 是 UCSC Genome Browser的一个track，位于repeats模块。RepeatMasker（http://www.repeatmasker.org/）是Arian Smit等人开发的程序，可以筛选DNA序列中的散在重复序列（ interspersed repeats）和低复杂序列（low complexity DNA sequences），类型主要包...

2018-07-08 13:38:58 12807 2

原创 python-multiprocessing 多进程并行计算

#16.6.1.1. The Process classfrom multiprocessing import Processimport osimport timestart_time = time.time()def info(title): print(title) if hasattr(os, 'getppid'): # only available on

2017-08-13 14:59:33 18028 2

原创【Python并行计算】- Dask 让你的python更快更强

python 并行计算

2022-03-13 21:57:16 2116

原创 cromwell-web server 服务器端

cromwell-web server 服务器端cromwell 除了之前提到的执行单个任务流程的run 模式，还有强大的server模式，即启动一个web服务，然后通过接收REST 请求实现任务调度。java -Dconfig.file=cromwell.config -jar cromwell-69.jar servercromwell默认开启8000 端口，可以在cromwell.config中修改网络配置。访问 http://127.0.0.1:8000/sw

2021-10-07 13:25:08 1570 3

原创 cromwell-配置集群/云作业管理系统

cromwell-配置集群/云作业管理系统cromwell 不仅支持本地计算机任务调度，同时支持集群/云计算作业管理系统，只需要进行简单配置，就可以实现大规模计算。配置文件与前文提到的cromwell 命令行配置一样，cromwell进行集群运算也需要进行文件配置。官方针对不同的集群/云作业管理系统提供了相关的配置文件（https://github.com/broadinstitute/cromwell/tree/develop/cromwell.example.backends），但是本质都是讲调度

2021-10-06 20:31:00 1909 1

原创【UCSC Genome Browser】Genes and Gene Predictions - GENCODE

【UCSC Genome Browser 大乱炖】Genes and Gene Predictions - GENCODEGENCODE 是Sanger研究院维护的基因组功能注释数据库（https://www.gencodegenes.org），UCSC浏览器整合了这一数据库，方便研究人员对基因信息进行研究。GENECODE 配置信息点击GENCODE v32可以对显示参数进行设置。display mode 信息的展示由多到少，full(全部显示)>pack>squish&gt

2021-10-05 19:52:29 1590

原创【UCSC Genome Browser】- ClinGen剂量敏感性分析

【UCSC Genome Browser】- ClinGen剂量敏感性分析ClinGen是美国国立卫生研究院（NIH）资助的资源，致力于构建用于精准医疗研究的基因、变异和疾病的临床相关性的资源。在遗传变异解读过程中，离不开ClinGen网站（https://clinicalgenome.org/）的使用，比如遇到基因LoF(Loss of Function)或deletion可以从单倍剂量不足下手。ClinGen 是遗传解读中重要的使用工具，已有很多公众号对该数据库做了详细的介绍，可参考本文重点解读C

2021-10-05 19:50:13 5688 1

原创【UCSC Genome Browser】- 小技巧

【UCSC Genome Browser】- 小技巧Browser 视图介绍UCSC Genome Browser根据基因组位置信息，将不同数据库以track（轨道）的方式聚合在同一个视图中，使得研究人员可以进行多层次的比较和分析。我们选择几个track（数据库）进行展示，不同的track可能有不同的展示方式，在后续的文章中我们会逐个介绍。Browser 配置点击视图下方的configure 按钮，可以对浏览器进行设置。image width 可以根据自己的显示器宽度调节；abel are

2021-10-05 19:47:27 3248

原创【UCSC Genome Browser】- Genes and Gene Predictions - NCBI RefSeq

【UCSC Genome Browser】- Genes and Gene Predictions - NCBI RefSeqRefSeq（RNA reference sequences collection，）是NCBI维护的标准参考序列数据库，提供了具有生物意义上的非冗余的基因、转录本及蛋白质序列，详细介绍可以参考RefSeq官网（https://www.ncbi.nlm.nih.gov/refseq/）UCSC Genome Browser 将这一权威数据库作为一个track，方便研究人员进行基

2021-10-05 19:45:19 1979 1

原创【UCSC Genome Browser】比老东家还出名的基因组数据库

UCSC基因组浏览器，比老东家还出名的数据库对于生命科学从业者来讲，UCSC基因组浏览器可能并不陌生，这可是基因组的大百科全书，但是UCSC是什么呢…好像是加州大学。。什么。。什么。。分校。好吧，我们一起百度下 UCSC最先搜索出来的是UCSC Genome Browser，其次才是他的老东家加州大学圣克什么。。分校（当然，这不重要…）果然是一款比老东家还要出名的基因组数据库。因为平时工作中经常会用到这个数据库，宝藏一般汇聚了各类信息，使你的工作事半功倍。所以计划仔细研究下这个数据库，

2021-10-05 19:42:39 2388

原创 cromwell-命令行配置文件

可以通过配置文件或 Java 命令行在缓存、文件系统、数据库等方面来配置 Cromwell。java -Dconfig.file=/path/to/cromwell.conf cromwell.jar ...具体命令行使用，参考之前的文章cromwell 命令行配置文件按照[HOCON]https://github.com/lightbend/config/blob/master/HOCON.md#hocon-human-optimized-config-object-notation自定义配置

2021-10-05 19:22:14 1177

原创 cromwell 介绍（一）

WDL是Broad Institute开发的“human readable and writable”定义组织任务与工作流的一种语言，主要面向生物信息/基因组学等领域。Cromwell 是WDL语言的任务管理引擎，在 BSD 3-Clause 许可下开源。cromwell 下载cromwell 由java语言编写，可以下载打包好的jar，直接使用https://github.com/broadinstitute/cromwell/releases截止到2021年10月，cromwell 已经r

2021-10-05 19:20:39 2781

原创用了这些浏览器插件，让你的科研效率飞起

用了这些浏览器插件，让你的科研效率飞起关注微信公众号:上帝的bug，发现更多技术干货Pubmedpluspubmed 收录了大量的生物医药相关文献，可谓浩如烟海，但是文献质量参差不齐。Pubmedplus 提供了杂志的影响因子，给评估文献质量带来了巨大的便利。[Microsoft Edge] https://microsoftedge.microsoft.com/addons/detail/pubmedplus/diljlbdgggledeknobeffkolnolelpgmiGG谷歌访

2021-09-19 16:14:56 4243

原创【一起学生信】认识MAPQ

目录MAPQ 定义MAPQ的影响因素欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导...

2019-04-15 01:22:20 5695

原创【一起学生信】根据reads名称提取bam

上文（https://lipidong.blog.csdn.net/article/details/88975801）提到了根据参考基因组的位置来提取bam信息，根据基因组区域来提取其实是比较容易的，即便没有现成的软件我们将bam排序后，用awk也可以快速提取，但是如果是根据reads名称来提取就比较麻烦了，自己写脚本或者用grep速度会比较慢，今天推荐用picard来操作。java -ja...

2019-04-02 16:56:49 5969 4

转载【一起学生信】群体结构图形—structure堆叠图

1、structure图的由来图1 假设群体亚群数等于3（k=3）的情况下的structure分析结果“Structure图”名词本身来自这种图形的分析软件——STRUCTURE。这个软件是由斯坦福大学Pritchard实验室开发的一款群体结构分析软件，最早在2000年发表在《Genetics》上[1]。图2 structure惊人的引用次数Structure软件分析达到的目的...

2019-02-14 16:25:58 14433

原创【Python数据可视化】写在前面

大数据时代来临，数据可视化作为一个重要环节，受到越来越多的重视。https://github.com/holtzy/The-Python-Graph-Gallery 很好的博客，立贴于此，后面会写一些数据可视化的文章。...

2018-12-24 09:21:30 798

原创【深入UCSC Genome Browser】Repeats-Self Chain

人类基因组大约有3,000,000,000个碱基对其中50%-69%是重复序列，包括转座子（SINES、LINES、Long Terminal Repeats）以及低复杂区域（比如homopolymers 和 CAG重复）和假基因（大片段重复引起）。Self Chain就是UCSC中查看大片段重复的工具。描述self chain 是染色体之间相似性的比较，相比如segdup，它修改了...

2018-12-06 20:49:14 2046

转载【测序发展史】一代、二代、三代测序发展

转自： https://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247487425&idx=1&sn=855a6f72cfa78840157aa87b68ce36f4&chksm=ec0dca4bdb7a435d178c2ac72a3ff78170951812f80ba3b3fae78...

2018-12-06 19:55:24 7783 2

原创【IP被禁用】ssh Connection refused

1. ssh 访问某云服务器ssh root@XX.XX.XXX.XXX ssh: connect to host XX.XX.XXX.XXX port 22: Connection refused 2. 换用其他服务器（跟本地不同IP）跳转，可以登录服务器。怀疑本地IP被云服务器加入黑名单3. 查看secure log 日志```sudo less /var/log/s...

2018-11-06 09:36:35 12915 2

转载【深入UCSC Genome Brower】他山之石

转自：https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655752921&idx=1&sn=159f79dde58d2145c59307e23a06b97a&scene=0#wechat_redirect这是一个神奇的网站：UCSC Genome Brower有朋友在后台留言让介绍下UCSC Genome...

2018-07-08 13:22:52 5542

原创【深入UCSC Genome Brower】写在前面

UCSC Genome Database（http://genome.ucsc.edu/）是加州大学圣克鲁兹分校（UCSC）创立和维护的一个重要的生物学数据库，它包含了大量基因组数据，基因组间的比对信息，参考序列（mRNA, EST ）、基因注释信息（ENCODE ）、表型、表达谱、调控信息、保守性、变异、重复区域等一系列信息UCSC 数据库提供了可视化工具 Genome Browser 去...

2018-07-08 13:08:02 1767

原创 Linear Alignment 与 Chimeric Alignment

Linear AlignmentAn alignment of a read to a single reference sequence that may include insertions, deletions, skips and clipping, but may not include direction changes (i.e. one portion of the align...

2018-06-29 11:35:47 3178

转载 PacBio-组装介绍

主页：github: PacificBiosciences/FALCON转自：https://www.cnblogs.com/leezx/p/5724590.html简介Falcon是一组通过快速比对长reads，从而来consensus和组装的工具。Falcon工具包是一组简单的代码集合，我使用它们来研究单倍体和二倍体基因组的高效组装算法。为了提高计算速度，它有一些后台代码是使用C来实现的，为了

2018-03-28 11:33:40 4445 1

转载基因测序仪发展史.

NGS十年发展史，看这篇就够了 | Nature综述解读日前 Nature Reviews Genetics 刊出了一篇综述，盘点近十年来测序技术的发展。从最初的“高山仰止”到如今走进寻常百姓家，正是测序公司和科研人员们孜孜不倦的努力，推动了行业不断向前发展，而其中的佼佼者，也在特定的历史时期留下了属于自己的印记。自2003年人类基因组计划完成之后，测序技术发展迅猛，多种测序原理产品在市场上出现，

2018-02-02 17:29:09 11630

转载【机器学习】图解机器学习十大算法

本文转自 https://mp.weixin.qq.com/s?__biz=MzA3MTIyNzIxOQ==&mid=2655533205&idx=4&sn=1f9d286c2f4874dc97d9e1ee6759d720&chksm=848c5aa9b3fbd3bfa55d5ce1b8e667e96458067be5b1d4ebc8964bf14c9cf249046ba1830e80&mpsha

2018-01-19 18:49:32 1124

转载【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度

本文转自 http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中，人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上，这样的度量错误掩盖了样例如何被分错的事实。在机器学习中，有一个普遍适用的称为混淆矩阵(confusion matrix)的工具，它可以帮助人们更

2018-01-19 17:43:35 75777 10

原创【一起学生信】 bwa -M 参数解读

bwa mem 比对时，会有一个 -M 参数，bwa官方给出的解释是 mark shorter split hits as secondary。-M 参数用来处理同一个reads比对到参考基因组上不同位置的情况。不加 -M如果加入 -M 参数，这种情况bam中的 flag= 2048 ( supplementary alignment ) # 必须做好hg19的indexbwa

2018-01-11 18:36:54 9437

原创【一起学生信】blast 结果文件处理

本地采用blast比对完成后，会得到一个xml文件，但是xml文件过于复杂，不好处理。我们可以采用biopython将其转换为 blast-tab 文件。from Bio import SearchIOxml = SearchIO.parse('/your/xml-path/', 'blast-xml')SearchIO.write(xml, '/your/output-path', 'bla

2018-01-04 11:46:53 6067

原创 shell小技巧

设置颜色RED="$(tput setaf 1)"GREEN="$(tput setaf 2)"YELLOW="$(tput setaf 3)"BLUE="$(tput setaf 4)"BOLD="$(tput bold)"NORMAL="$(tput sgr0)"# testecho "${RED}I am RED" 合并多个文件，文件名作为第一列awk '

2018-01-04 11:09:38 1128

原创【一起学生信】bam文件统计覆盖深度、靶向捕获效率

bam文件统计覆盖深度、靶向捕获效率是在基因组测序分析中经常用到的操作，之前也用过python、perl实现过但是速度比较慢，今天偶然发现了一个软件bamdst（https://github.com/shiquan/bamdst)，采用c语言编写，速度快，分析的类型也比较多，涉及到了mapping统计、靶向捕获统计、flanking区域统计、深度覆盖统计等。用起来比较方便，具体使用可以参考git

2018-01-02 18:23:08 13109 1

转载肿瘤基因检测的解读流程

从临床进入基因检测流程是入口，检测结果结合临床信息进行合理解读是出口，这一入一出之间需经历检测前临床咨询部分、实验室部分、信息分析部分、临床解读部分共四个环节。其中的第四部分临床解读部分即是根据检测结果、患者信息、医生共识综合判断，临床和遗传咨询有效衔接、充分沟通，最终出具临床解读报告。在做成临床解读报告之前，首先需要将解读的各个环节进行明确，包括解读的步骤流程，解读的技术细节。这样才有可能真正的

2017-12-21 11:27:19 21358 3

转载 Python format 使用实例

如果需要{}是自己实际需要的字符，需要用{{}}作为转义以下转自： https://pyformat.info/Basic formattingSimple positional formatting is probably the most common use-case. Use it if the order of your arguments is not likely to chang

2017-12-12 14:59:25 3116

转载 Bash 老司机也可能忽视的 10 大编程细节

Bash，作为大部分 Linux 发行版的出厂预设 Shell，因其晦涩难懂的语法设置，以及需要特别留心的编程细节，几乎成为 Linux 区别于其他操作系统的代名词。针对 Bash 中一些极容易出错的细节，我们在这里总结了 10 条编程注意事项，希望对各位泛 Linux 环境的开发者有所裨益。原文来自一位名叫 Julia Evans 的开发者博客，雷锋网编译。作为一名 Bash 脚本编写经验超过

2017-12-11 11:24:07 1864

转载层次聚类算法的原理及实现Hierarchical Clustering

层次聚类(HIERARCHICAL CLUSTERING)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法，本篇文章介绍合并方法。

2017-12-06 15:45:49 4320

转载基因组组装算法

基因组组装算法目前，构建Graph的主流方法有3种，Overlap-Layout-Consensus（Celera Assembler、PBcR），de Bruijn Graph（SOAPdenovo ）和 String Graph（Falcon）。相关文献基于De Bruijn图的宏基因组序列组装算法研究（CNKI）对基因组组装算法的分析和研究（CNKI）基于De Bruijn图的De Nov

2017-12-04 13:28:58 7080

转载 UCSC 人类参考基因组hg19数据下载

This directory contains a dump of the UCSC genome annotation database forthe Feb. 2009 assembly of the human genome (hg19, GRCh37 Genome ReferenceConsortium Human Reference 37 (GCA_000001405.1)).T

2017-11-14 21:39:15 14858

转载一代、二代、三代测序技术原理与比较

从1977年第一代DNA测序技术（Sanger法）1，发展至今三十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置，但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革，也都对基因组研究，疾病医疗研究，药物研发，育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。

2017-11-10 14:08:02 293526 11

原创【error】pg_dump no matching tables were found

pg_dump 备份数据时，提示 no matching tables were found，可是表明明是存在的。最后发现，是引号的问题，于是加了双引号，可还是不行。最终在Stack Overflow发现了答案。https://stackoverflow.com/questions/13905162/postgres-dump-specific-table-with-a-capital-lett

2017-10-18 15:42:53 7626 3

大型机（HPC）构建 hadoop

决策树分析

linux非root安装软件设置