自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 资源 (2)
  • 论坛 (7)
  • 问答 (1)
  • 收藏
  • 关注

原创 【一起学生信】根据目标区域提取bam信息

测序完成得到的reads我们会比对到参考基因组得到bam文件,bam文件一般很大,很多时候我们只需要提取部分内容。根据参考基因组位置提取根据指定基因组区域的提取bam,可以使用以下命令。samtoolssamtools view -hb chr:start-end wgs.sort.bam > target.region.bam# 根据bed文件来提取samtools vie...

2019-04-02 16:49:44 5720

原创 【深入UCSC Genome Browser】repeats-RepeatMasker

RepeatMasker 是 UCSC Genome Browser的一个track,位于repeats模块。RepeatMasker(http://www.repeatmasker.org/)是Arian Smit等人开发的程序,可以筛选DNA序列中的散在重复序列( interspersed repeats)和低复杂序列(low complexity DNA sequences),类型主要包...

2018-07-08 13:38:58 5048 1

原创 python-multiprocessing 多进程并行计算

#16.6.1.1. The Process classfrom multiprocessing import Processimport osimport timestart_time = time.time()def info(title): print(title) if hasattr(os, 'getppid'): # only available on

2017-08-13 14:59:33 14386

原创 【一起学生信】认识MAPQ

目录MAPQ 定义MAPQ的影响因素欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导...

2019-04-15 01:22:20 1458

原创 【一起学生信】根据reads名称提取bam

上文(https://lipidong.blog.csdn.net/article/details/88975801) 提到了根据参考基因组的位置来提取bam信息,根据基因组区域来提取其实是比较容易的,即便没有现成的软件我们将bam排序后,用awk也可以快速提取,但是如果是根据reads名称来提取就比较麻烦了,自己写脚本或者用grep速度会比较慢,今天推荐用picard来操作。java -ja...

2019-04-02 16:56:49 2025 4

转载 【一起学生信】群体结构图形—structure堆叠图

1、structure图的由来图1 假设群体亚群数等于3(k=3)的情况下的structure分析结果“Structure图”名词本身来自这种图形的分析软件——STRUCTURE。这个软件是由斯坦福大学Pritchard实验室开发的一款群体结构分析软件,最早在2000年发表在《Genetics》上[1]。图2 structure惊人的引用次数Structure软件分析达到的目的...

2019-02-14 16:25:58 6179

原创 【Python数据可视化】写在前面

大数据时代来临,数据可视化作为一个重要环节,受到越来越多的重视。https://github.com/holtzy/The-Python-Graph-Gallery 很好的博客,立贴于此,后面会写一些数据可视化的文章。...

2018-12-24 09:21:30 354

原创 【深入UCSC Genome Browser】Repeats-Self Chain

人类基因组大约有3,000,000,000个碱基对其中50%-69%是重复序列,包括转座子(SINES、LINES、Long Terminal Repeats)以及低复杂区域(比如 homopolymers 和 CAG重复)和假基因(大片段重复引起)。Self Chain 就是UCSC中查看大片段重复的工具。描述self chain 是染色体之间相似性的比较,相比如segdup,它修改了...

2018-12-06 20:49:14 743

转载 【测序发展史】一代、二代、三代测序发展

  转自: https://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247487425&idx=1&sn=855a6f72cfa78840157aa87b68ce36f4&chksm=ec0dca4bdb7a435d178c2ac72a3ff78170951812f80ba3b3fae78...

2018-12-06 19:55:24 6113 2

原创 【IP被禁用】ssh Connection refused

1. ssh 访问某云服务器ssh root@XX.XX.XXX.XXX ssh: connect to host XX.XX.XXX.XXX port 22: Connection refused 2. 换用其他服务器(跟本地不同IP)跳转,可以登录服务器。怀疑本地IP被云服务器加入黑名单3. 查看secure log 日志```sudo less /var/log/s...

2018-11-06 09:36:35 9499

转载 【深入UCSC Genome Brower】他山之石

转自:https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655752921&idx=1&sn=159f79dde58d2145c59307e23a06b97a&scene=0#wechat_redirect这是一个神奇的网站:UCSC Genome Brower有朋友在后台留言让介绍下UCSC Genome...

2018-07-08 13:22:52 2112

原创 【深入UCSC Genome Brower】写在前面

UCSC Genome Database(http://genome.ucsc.edu/)是加州大学圣克鲁兹分校(UCSC)创立和维护的一个重要的生物学数据库,它包含了大量基因组数据,基因组间的比对信息, 参考序列(mRNA, EST )、基因注释信息(ENCODE )、表型、表达谱、调控信息、保守性、变异、重复区域等一系列信息UCSC 数据库提供了可视化工具 Genome Browser 去...

2018-07-08 13:08:02 817

翻译 Linear Alignment 与 Chimeric Alignment

Linear AlignmentAn alignment of a read to a single reference sequence that may include insertions, deletions, skips and clipping, but may not include direction changes (i.e. one portion of the align...

2018-06-29 11:35:47 1696

转载 PacBio-组装介绍

主页:github: PacificBiosciences/FALCON转自:https://www.cnblogs.com/leezx/p/5724590.html简介Falcon是一组通过快速比对长reads,从而来consensus和组装的工具。Falcon工具包是一组简单的代码集合,我使用它们来研究单倍体和二倍体基因组的高效组装算法。为了提高计算速度,它有一些后台代码是使用C来实现的,为了

2018-03-28 11:33:40 2752 1

转载 基因测序仪发展史.

NGS十年发展史,看这篇就够了 | Nature综述解读日前 Nature Reviews Genetics 刊出了一篇综述,盘点近十年来测序技术的发展。从最初的“高山仰止”到如今走进寻常百姓家,正是测序公司和科研人员们孜孜不倦的努力,推动了行业不断向前发展,而其中的佼佼者,也在特定的历史时期留下了属于自己的印记。自2003年人类基因组计划完成之后,测序技术发展迅猛,多种测序原理产品在市场上出现,

2018-02-02 17:29:09 8779

转载 【机器学习】图解机器学习十大算法

本文转自 https://mp.weixin.qq.com/s?__biz=MzA3MTIyNzIxOQ==&mid=2655533205&idx=4&sn=1f9d286c2f4874dc97d9e1ee6759d720&chksm=848c5aa9b3fbd3bfa55d5ce1b8e667e96458067be5b1d4ebc8964bf14c9cf249046ba1830e80&mpsha

2018-01-19 18:49:32 595

转载 【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度

本文转自 http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更

2018-01-19 17:43:35 48289 9

原创 【一起学生信】 bwa -M 参数解读

bwa mem 比对时,会有一个 -M 参数,bwa官方给出的解释是 mark shorter split hits as secondary。-M 参数用来处理同一个reads比对到参考基因组上不同位置的情况。不加 -M如果加入 -M 参数,这种情况bam中的 flag= 2048 ( supplementary alignment ) # 必须做好hg19的indexbwa

2018-01-11 18:36:54 5231

原创 【一起学生信】blast 结果文件处理

本地采用blast比对完成后,会得到一个xml文件,但是xml文件过于复杂,不好处理。我们可以采用biopython将其转换为 blast-tab 文件。from Bio import SearchIOxml = SearchIO.parse('/your/xml-path/', 'blast-xml')SearchIO.write(xml, '/your/output-path', 'bla

2018-01-04 11:46:53 4101

原创 shell小技巧

设置颜色RED="$(tput setaf 1)"GREEN="$(tput setaf 2)"YELLOW="$(tput setaf 3)"BLUE="$(tput setaf 4)"BOLD="$(tput bold)"NORMAL="$(tput sgr0)"# testecho "${RED}I am RED" 合并多个文件,文件名作为第一列awk '

2018-01-04 11:09:38 713

原创 【一起学生信】bam文件统计覆盖深度、靶向捕获效率

bam文件统计覆盖深度、靶向捕获效率是在基因组测序分析中经常用到的操作,之前也用过python、perl实现过但是速度比较慢,今天偶然发现了一个软件bamdst(https://github.com/shiquan/bamdst), 采用c语言编写,速度快,分析的类型也比较多,涉及到了mapping统计、靶向捕获统计、flanking区域统计、深度覆盖统计等。用起来比较方便,具体使用可以参考git

2018-01-02 18:23:08 8350

转载 肿瘤基因检测的解读流程

从临床进入基因检测流程是入口,检测结果结合临床信息进行合理解读是出口,这一入一出之间需经历检测前临床咨询部分、实验室部分、信息分析部分、临床解读部分共四个环节。其中的第四部分临床解读部分即是根据检测结果、患者信息、医生共识综合判断,临床和遗传咨询有效衔接、充分沟通,最终出具临床解读报告。在做成临床解读报告之前,首先需要将解读的各个环节进行明确,包括解读的步骤流程,解读的技术细节。这样才有可能真正的

2017-12-21 11:27:19 14389 2

转载 Python format 使用实例

如果需要{}是自己实际需要的字符,需要用{{}}作为转义 以下转自: https://pyformat.info/Basic formattingSimple positional formatting is probably the most common use-case. Use it if the order of your arguments is not likely to chang

2017-12-12 14:59:25 2448

转载 Bash 老司机也可能忽视的 10 大编程细节

Bash,作为大部分 Linux 发行版的出厂预设 Shell,因其晦涩难懂的语法设置,以及需要特别留心的编程细节,几乎成为 Linux 区别于其他操作系统的代名词。针对 Bash 中一些极容易出错的细节,我们在这里总结了 10 条编程注意事项,希望对各位泛 Linux 环境的开发者有所裨益。原文来自一位名叫 Julia Evans 的开发者博客,雷锋网编译。作为一名 Bash 脚本编写经验超过

2017-12-11 11:24:07 1448

转载 层次聚类算法的原理及实现Hierarchical Clustering

层次聚类(HIERARCHICAL CLUSTERING)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文章介绍合并方法。

2017-12-06 15:45:49 3267

转载 基因组组装算法

基因组组装算法目前,构建Graph的主流方法有3种,Overlap-Layout-Consensus(Celera Assembler、PBcR),de Bruijn Graph(SOAPdenovo ) 和 String Graph(Falcon)。相关文献基于De Bruijn图的宏基因组序列组装算法研究(CNKI)对基因组组装算法的分析和研究(CNKI)基于De Bruijn图的De Nov

2017-12-04 13:28:58 4620

转载 UCSC 人类参考基因组hg19数据下载

This directory contains a dump of the UCSC genome annotation database forthe Feb. 2009 assembly of the human genome (hg19, GRCh37 Genome ReferenceConsortium Human Reference 37 (GCA_000001405.1)).T

2017-11-14 21:39:15 8845

转载 一代、二代、三代测序技术原理与比较

从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。

2017-11-10 14:08:02 219113 15

原创 【error】pg_dump no matching tables were found

pg_dump 备份数据时,提示 no matching tables were found, 可是表明明是存在的。最后发现,是引号的问题,于是加了双引号,可还是不行。最终在Stack Overflow发现了答案。https://stackoverflow.com/questions/13905162/postgres-dump-specific-table-with-a-capital-lett

2017-10-18 15:42:53 4371 2

原创 【error】postgresql relation does not exist

最近刚刚使用postgresql遇到很多问题。postgresql relation does not exist使用postgresql 查询 AAA 数据表时,提示 postgresql relation does not exist ,可是 SELECT tablename FROM pg_tables;AAA 表是存在的,好奇怪。搜索之后发现,是因为引号的问题。PostgreS

2017-10-18 15:37:30 27702

原创 【error】No such file or directory apu-1-config apr-1-config

问题mac采用 pip3 install mod_wsgi, 报错FileNotFoundError: [Errno 2] No such file or directory: '/Applications/Xcode.app/Contents/Developer/Toolchains/OSX10.12.xctoolchain/usr/local/bin/apu-1-config'FileNotF

2017-09-27 13:17:14 5159

原创 error: Cannot find OpenSSL's <evp.h> Mac

问题mac安装php需要openssl./configure –with-openssl报错 error: Cannot find OpenSSL’s 解决brew install openssl./configure --with-openssl=/usr/local/Cellar/openssl/1.0.2l/

2017-09-26 10:42:36 8694

原创 【跟着stackoverflow学Pandas】--Converting a Pandas GroupBy object to DataFrame-Groupby对象转换为DataFrame

我们在对数据进行清洗时,经常要用到split-apply-combine,首先对数据按照一定的标准进行split(分组),然后对每组数据进行apply(处理),最后把结果combine(合并),在这一系列操作中就必须要用到 pandas的groupby函数。

2017-09-17 16:19:05 6213

原创 【R】R语言指定包安装目录

仅针对Linux操作系统。查看R安装目录R # 进入R软件.libPaths()方法1 在 ~/.bashrc 中设置export R_LIBS_USER=/your/path然后采用 install.packages("ggplot2", repos='http://cran.rstudio.com/') 即可将包安装在自己制定的 /your/path 这样做的优点是别人source你的环境

2017-08-29 09:33:13 17426

原创 【perl】cpan 非root安装perl模块

处于无奈才用perl的,相比python,不喜欢perl。。。以下写入你的 .bashrc 或 .zshrc 文件,然后sourcesoftware=/your/path#cpan installexport PERL_LOCAL_LIB_ROOT="${software}/PERL5"export PERL_MB_OPT="--install_base ${software}/PERL5"e

2017-08-28 23:22:13 6124

原创 【python-tips】非root权限安装pip、其他包

很多时候我们拿到服务器的账号,只是一个普通用户,没有root权限,这没有关系。关键是没有pip、没有必要的python包。参考Stack Overflow给出解决方案,适用于python2.7, python3.x安装pipwget https://raw.github.com/pypa/pip/master/contrib/get-pip.pypython get-pip.py --user这里

2017-08-25 19:26:31 18947 2

原创 【跟着stackoverflow学Pandas】- apply、applymap、map 三者使用差异

## Difference between map, applymap and apply methods in Pandas - map、apply、applymap 三者使用差异https://stackoverflow.com/questions/19798153/difference-between-map-applymap-and-apply-methods-in-pandas

2017-08-19 14:49:24 14002

原创 【跟着stackoverflow学Pandas】-How do I get the row count of a Pandas dataframe-获取DataFrame行数

最近做一个系列博客,跟着stackoverflow学Pandas。专栏地址:http://blog.csdn.net/column/details/16726.html以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stackoverflow.com/questions/tagged/pandas?sort=votes&p

2017-08-19 14:07:28 13266

原创 【跟着stackoverflow学Pandas】- 删除带有NaN的行

最近做一个系列博客,跟着stackoverflow学Pandas。 专栏地址:http://blog.csdn.net/column/details/16726.html以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stackoverflow.com/questions/tagged/pandas?sort=votes&

2017-08-16 19:19:39 18001

原创 【跟着stackoverflow学Pandas】 - Pandas: change data type of columns - Pandas修改列的类型

Pandas: change data type of columns - Pandas修改列的类型

2017-08-15 22:55:27 9848

大型机(HPC)构建 hadoop

大型机(HPC)构建 hadoop 强烈推荐

2014-10-30

决策树分析

决策树学习资料,我用过的最好的东西,分享给大家

2014-10-30

探索者v的留言板

发表于 2020-01-02 最后回复 2020-01-02

MAC OSX 设置java虚拟机运行内存

发表于 2015-08-10 最后回复 2016-04-13

C++ 命令行传递参数改为内部直接定义参数

发表于 2015-05-02 最后回复 2015-08-10

一些大数据网站,比如美国的NCBI,可以上传数据进行大规模运算然后返回给客户,是如何做到的?

发表于 2014-10-29 最后回复 2015-05-02

httpclient4.3获取网页信息

发表于 2014-01-19 最后回复 2014-10-29

java 模拟登录 模拟点击登录

发表于 2014-01-22 最后回复 2014-10-29

mysql 优化多表查询

发表于 2014-01-10 最后回复 2014-01-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除