hzau_yang-CSDN博客

原创 plink格式的坑

plink格式的坑1当我使用plink格式文件通过emmax进行全基因组关联分析后，想看基因型与表型之间的正负关联关系。于是，我天真的认为基因型tped文件中的“2 2”就是1/1，“1 1”就是0/0。结果对应到vcf文件中，发现怎么着都对不上，然后我通过仔细研究bfile的bim格式文件，明白plink在转12基因型时，将第一个出现的等位基因视为1，第二次出现的视为2。也就是说22不一定是啥...

2020-03-25 21:49:48 1659 2

原创改bam文件的样本id

问题描述：有时经常遇到重测序的数据加测的问题，或者NCBI上下载的数据中一个样本测了几个库，这个时候一个样本就会有两对或多对fastq文件。如果你把每个样本分别比对，使用了不同的ID，那么合并之后的ID就需要重新修改成样本名，才能进行后续的call SNP的工作。干这个事儿的主要有两个工具，samtools和picard。输入数据：使用samtools merge合并之后的bam文件samto...

2019-09-22 14:27:20 4555

原创 HiCexplorer处理Hi-C数据

这篇算是hicexplorer官网手册的简单罗列，加上一些自己使用的心得（不断修正中)

2019-08-31 20:06:37 14887 3

原创 exonerate注释

输入文件：基因组的fasta文件，近缘物种的蛋白序列输出文件：近缘物种比对到基因组，注释出来的gff3文件，该文件可以用于作为基因组最后汇总注释的证据之一，但一般权重不如转录组数据流程：1.每个样本切成n个文件，并行提交任务split_exonerate.sh脚本fa=$1pep=$2i=$3n=$4exonerate -t $fa -q $pep --querychunkid ...

2019-08-22 09:34:51 6404 4

原创 pandas写入读取h5文件

1.引言hdf5在存储的是支持压缩，使用的方式是blosc，这个是速度最快的也是pandas默认支持的。使用压缩可以提磁盘利用率，节省空间。开启压缩也没有什么劣势，只会慢一点点。压缩在小数据量的时候优势不明显，数据量大了才有优势。同时发现hdf读取文件的时候只能是一次写，写的时候可以append，可以put，但是写完成了之后关闭文件，就不能再写了，会覆盖。2.写入文件使

2017-11-09 09:46:58 28139

原创 python包：glob用法

python的glob包用法：该包包含两个主要的函数glob和iglob，输入参数均是文件路径，返回值glob为文件列表（无序），iglob为迭代器：glob.glob(pathname)¶Return a possibly-empty list of path names that match pathname, which must be a string containing a pat

2017-10-17 09:50:46 3997

原创 edgeR的使用

edgeR包是进行RNA-seq数据分析非常常用的一个R包。该包需要输入每个基因关于每个样本的reads数的数据，每行对应一个基因，每一列对应一个样本。建议使用htseq-count进行统计，输出文件即可直接使用。如果需要算RPKM，需要自己统计基因长度信息。

2017-09-27 22:41:00 32762 4

原创 plink做SNP筛选和GWAS

plink解决三个小问题

2017-09-21 15:23:42 18890

原创快速从NCBI下载sra数据

1.下载并安装：wget http://download.asperasoft.com/download/sw/connect/3.7.2/aspera-connect-3.7.2.141527-linux-64.shsh aspera-connect-3.7.2.141527-linux-64.sh把一些输入文件放到主目录：cp ~/.aspera/connect/etc/asperaweb_i

2017-08-29 20:54:46 7979

原创 PINDEL检测结构变异

PINDEL检测结构变异输入： 1.配置文件： simulated_sample_1.bam 250 SAMPLE1 simulated_sample_2.bam 250 SAMPLE2 simulated_sample_3.bam 250 SAMPLE3 注：bam文件必须samtools index建立索引 pindel -i -f

2017-06-12 22:11:45 4759

转载 python argparse的作用

argparse - 命令行选项与参数解析（译） 2013-03-30 Sat By youngsterxyf 原文：argparse – Command line option and argument parsing译者：youngsterxyfargparse模块作为optparse的一个替代被添加到Python2.7。argparse的实现支持一些不易于添加到optparse以及要求向

2016-12-19 16:22:11 5803

原创 Forests of randomized trees

sklearn.ensemble模块包括两个基于随机决策树的算法：随机森林算法和树外方法。这些算法是特别对于树的扰动与结合技术。这就意味着多种分类器的集合通过在分类器构建过程中引入随机项而被构建。这种集成的预测通过个体的分类的平均预测。

2016-08-11 20:14:55 2534

原创 Ensemble methods --Bagging meta-estimator

集成学习介绍通过使用对多个基学习器的整合来达到超过每个学习器的预测和稳定性。主要分为两种思想： averaging methods：个体学习器之间存在强依赖关系、必须串行生成，可以减小方差；例如Boosting boosting methods：个体学习器之间不存在强依赖关系，可同时生成并行化方法；例如Bagging, RandomForest1.Bagging meta-estimat

2016-08-10 19:34:52 1974

转载 Unicode详细介绍

转贴自：http://blog.chinaunix.net/uid-10468429-id-2953054.html 1. 编码知识 1.1 文本和字符在计算机程序中或者数据文件里，文本（text）是作为数字序列存储的。序列中的数字是具有不同大小、取值和解释的整数。如何解释这些整数是由字符集（character set）、编码（encoding）决定的。文本主要是由字符（char

2016-07-26 14:20:52 4628

原创 TopDom找TAD

1.根据bin的上游与下游的互作情况计算出bin(i)bin(i)的binsignal(i)binsignal(i),公式如下： conf.frepconf.frep表示两个bin之间的互作频率； 2.找拐点：根据每个bin的binsignalbinsignal用分段函数拟合出所有bin的主要趋势，函数表达式为 Fj=Lj−EjF_j=L_j-E_j，其中LjL_j是线的长度，EjE_j是拟

2016-06-11 17:08:40 1672 2

原创基于python的Lasagne包对minist的代码解读

本例是基于python的Lasagne包中对minist数据集的卷积神经网络的代码的一个解读,其中英文部分因为怕自己理解错误，所以保留了下来；由于该部分代码主要还是基于theano进行开发，所以里面的很多函数都是借鉴或直接用了theano中的函数，要想真正理解还是需要学习一下theano,包括其中对于变量和函数设计的理念，其实都是很有意味的！ theano: http://deeplearning

2016-06-08 19:07:57 2736

原创卷积神经网络

已经读了快一年的生物统计的研究生，也对数学有了自己的一些理解，但是由于毕竟半路出家，可能对一些问题的看法不够全面，希望可以在此得到纠正和交流。另外好友王帅同学建议我写一下博客，所以我就找了一下最近学习比较多的方面，卷积神经网络，希望在此可以多多交流。参考博客：http://blog.csdn.net/yaoqiang2011/article/category/5957815

2016-06-06 17:26:07 2160