关闭
当前搜索:

[置顶] python-multiprocessing 多进程并行计算

#16.6.1.1. The Process class from multiprocessing import Process import os import time start_time = time.time() def info(title): print(title) if hasattr(os, 'getppid'): # only available on...
阅读(4865) 评论(0)

[置顶] R语言 并行处理

具体的不懂,只记录实现 parallel packageR自带的包,可以实现并行处理。library(parallel) detectCores(logical = F) #获得实际核数 cl <- makeCluster(getOption("cl.cores", 4)) # 设置并行核数为4 clusterExport(cl=cl, varlist=c("text.var", "ntv", "...
阅读(8765) 评论(0)

[置顶] R语言神器

R pacakgedplyr数据处理神器, plyr的升级版,主要用于数据框,可以实现与数据库的快速交互。data.table读取文件,处理数据,速度比python,dplyr还要快。 就是语法上有些凌乱。reshape2, tidyr揉数据的法宝,将数据以不同的形式展现,列数由多变少, tidyr 是 reshape2 的升级版,主要用于数据框。readr2015-04-09 readr 发布,同...
阅读(11856) 评论(0)

[置顶] R语言常用函数集合

meltmelt(data, id.vars, measure.vars, variable.name = "variable", ..., na.rm = FALSE, value.name = "value", factorsAsStrings = TRUE)id.vars 表示固定不变的列 measure.vars 控制变量,需要处理的列,将这些列名作为某一列的数值 variabl...
阅读(8860) 评论(0)

【一起学生信】 bwa -M 参数解读

bwa mem 比对时,会有一个 -M 参数,bwa官方给出的解释是 mark shorter split hits as secondary。 -M 参数用来处理同一个reads比对到参考基因组上不同位置的情况。 不加 -M 如果加入 -M 参数,这种情况bam中的 flag= 2048 ( supplementary alignment ) # 必须做好hg19的index bwa...
阅读(116) 评论(0)

【一起学生信】blast 结果文件处理

本地采用blast比对完成后,会得到一个xml文件,但是xml文件过于复杂,不好处理。我们可以采用biopython将其转换为 blast-tab 文件。 from Bio import SearchIO xml = SearchIO.parse('/your/xml-path/', 'blast-xml') SearchIO.write(xml, '/your/output-path', 'bla...
阅读(457) 评论(0)

shell小技巧

设置颜色 RED="$(tput setaf 1)" GREEN="$(tput setaf 2)" YELLOW="$(tput setaf 3)" BLUE="$(tput setaf 4)" BOLD="$(tput bold)" NORMAL="$(tput sgr0)" # test echo "${RED}I am RED" 合并多个文件,文件名作为第一列 awk '...
阅读(431) 评论(0)

【一起学生信】bam文件统计覆盖深度、靶向捕获效率

bam文件统计覆盖深度、靶向捕获效率是在基因组测序分析中经常用到的操作,之前也用过python、perl实现过但是速度比较慢,今天偶然发现了一个软件bamdst(https://github.com/shiquan/bamdst), 采用c语言编写,速度快,分析的类型也比较多,涉及到了mapping统计、靶向捕获统计、flanking区域统计、深度覆盖统计等。用起来比较方便,具体使用可以参考git...
阅读(539) 评论(0)

肿瘤基因检测的解读流程

从临床进入基因检测流程是入口,检测结果结合临床信息进行合理解读是出口,这一入一出之间需经历检测前临床咨询部分、实验室部分、信息分析部分、临床解读部分共四个环节。其中的第四部分临床解读部分即是根据检测结果、患者信息、医生共识综合判断,临床和遗传咨询有效衔接、充分沟通,最终出具临床解读报告。在做成临床解读报告之前,首先需要将解读的各个环节进行明确,包括解读的步骤流程,解读的技术细节。这样才有可能真正的...
阅读(889) 评论(0)

Python format 使用实例

如果需要{}是自己实际需要的字符,需要用{{}}作为转义 以下转自: https://pyformat.info/Basic formattingSimple positional formatting is probably the most common use-case. Use it if the order of your arguments is not likely to chang...
阅读(1065) 评论(0)

Bash 老司机也可能忽视的 10 大编程细节

Bash,作为大部分 Linux 发行版的出厂预设 Shell,因其晦涩难懂的语法设置,以及需要特别留心的编程细节,几乎成为 Linux 区别于其他操作系统的代名词。针对 Bash 中一些极容易出错的细节,我们在这里总结了 10 条编程注意事项,希望对各位泛 Linux 环境的开发者有所裨益。原文来自一位名叫 Julia Evans 的开发者博客,雷锋网编译。作为一名 Bash 脚本编写经验超过 ...
阅读(1080) 评论(0)

层次聚类算法的原理及实现Hierarchical Clustering

层次聚类(HIERARCHICAL CLUSTERING)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文章介绍合并方法。...
阅读(1310) 评论(0)

基因组组装算法

基因组组装算法目前,构建Graph的主流方法有3种,Overlap-Layout-Consensus(Celera Assembler、PBcR),de Bruijn Graph(SOAPdenovo ) 和 String Graph(Falcon)。相关文献基于De Bruijn图的宏基因组序列组装算法研究(CNKI)对基因组组装算法的分析和研究(CNKI)基于De Bruijn图的De Nov...
阅读(1503) 评论(0)

UCSC 人类参考基因组hg19数据下载

This directory contains a dump of the UCSC genome annotation database for the Feb. 2009 assembly of the human genome (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)). T...
阅读(1993) 评论(0)

一代、二代、三代测序技术原理与比较

从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。...
阅读(2348) 评论(0)

【error】pg_dump no matching tables were found

pg_dump 备份数据时,提示 no matching tables were found, 可是表明明是存在的。最后发现,是引号的问题,于是加了双引号,可还是不行。最终在Stack Overflow发现了答案。https://stackoverflow.com/questions/13905162/postgres-dump-specific-table-with-a-capital-lett...
阅读(2476) 评论(1)

【error】postgresql relation does not exist

最近刚刚使用postgresql遇到很多问题。postgresql relation does not exist使用postgresql 查询 AAA 数据表时,提示 postgresql relation does not exist ,可是 SELECT tablename FROM pg_tables;AAA 表是存在的,好奇怪。搜索之后发现,是因为引号的问题。PostgreS...
阅读(2595) 评论(0)

【error】No such file or directory apu-1-config apr-1-config

问题mac采用 pip3 install mod_wsgi, 报错FileNotFoundError: [Errno 2] No such file or directory: '/Applications/Xcode.app/Contents/Developer/Toolchains/OSX10.12.xctoolchain/usr/local/bin/apu-1-config'FileNotF...
阅读(2977) 评论(0)

error: Cannot find OpenSSL's <evp.h> Mac

问题mac安装php需要openssl./configure –with-openssl报错 error: Cannot find OpenSSL’s 解决brew install openssl ./configure --with-openssl=/usr/local/Cellar/openssl/1.0.2l/...
阅读(3131) 评论(0)

【跟着stackoverflow学Pandas】--Converting a Pandas GroupBy object to DataFrame-Groupby对象转换为DataFrame

我们在对数据进行清洗时,经常要用到split-apply-combine,首先对数据按照一定的标准进行split(分组),然后对每组数据进行apply(处理),最后把结果combine(合并),在这一系列操作中就必须要用到 pandas的groupby函数。...
阅读(3793) 评论(0)

【R】R语言指定包安装目录

仅针对Linux操作系统。查看R安装目录R # 进入R软件 .libPaths()方法1 在 ~/.bashrc 中设置export R_LIBS_USER=/your/path然后采用 install.packages("ggplot2", repos='http://cran.rstudio.com/') 即可将包安装在自己制定的 /your/path 这样做的优点是别人source你的环境...
阅读(4199) 评论(0)

【perl】cpan 非root安装perl模块

处于无奈才用perl的,相比python,不喜欢perl。。。以下写入你的 .bashrc 或 .zshrc 文件,然后sourcesoftware=/your/path#cpan install export PERL_LOCAL_LIB_ROOT="${software}/PERL5" export PERL_MB_OPT="--install_base ${software}/PERL5" e...
阅读(4259) 评论(0)

【python-tips】非root权限安装pip、其他包

很多时候我们拿到服务器的账号,只是一个普通用户,没有root权限,这没有关系。关键是没有pip、没有必要的python包。参考Stack Overflow给出解决方案,适用于python2.7, python3.x安装pipwget https://raw.github.com/pypa/pip/master/contrib/get-pip.py python get-pip.py --user这里...
阅读(5053) 评论(0)

【跟着stackoverflow学Pandas】- apply、applymap、map 三者使用差异

## Difference between map, applymap and apply methods in Pandas - map、apply、applymap 三者使用差异 https://stackoverflow.com/questions/19798153/difference-between-map-applymap-and-apply-methods-in-pandas...
阅读(5082) 评论(0)
105条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:819671次
    • 积分:7409
    • 等级:
    • 排名:第3445名
    • 原创:76篇
    • 转载:18篇
    • 译文:11篇
    • 评论:41条
    博客专栏
    最新评论