![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
谱系追踪
文章平均质量分 83
今天也是个妖精头子呀
top3读研,生物信息学与脑科学交叉研究方向。
一般不会回复CSDN私信。若有技术交流,可以联系邮箱2456392738@qq.com
展开
-
比对 | 对于比对结果一些细节的理解?
1。为什么明明全部是151M,mapping quality却为0?以序列“A00928:207:HYLCHDSXY:2:1466:11415:24330”为例,进行分析。(base) [xxzhang@mu02 V1C]$ grep "A00928:207:HYLCHDSXY:2:1466:11415:24330" result_T45.samA00928:207:HYLCHDSXY:2:1466:11415:24330 99 chr16 29568232 0原创 2021-11-24 21:49:25 · 757 阅读 · 0 评论 -
实验记录 | 如何拆分scATAC-seq数据成为单个细胞?(1、解决barcode问题)
在师兄的帮助下,我得到了师兄筛选过的细胞的barcode的数据,那么接下来我想根据这些barcode,将来源于同一个barcode的细胞的reads提取出来,这个还是一个蛮有技术含量的事情的,因为上次我有使用过perl的脚本进行提取,最后的实验结果很糟糕,故而这件事情一直搁置到现在,没有继续去做(我的脚本的编写能力还是有待于加强,可能是刚刚喝了奶茶,和老妈弟弟聊了好多闲话,很开心,觉得在某种程度上休息够了,对于工作也是一种非常快乐和积极的状态了)。0。前期失败尝试回顾...原创 2021-10-07 16:00:21 · 1093 阅读 · 0 评论 -
实验记录 | 提高运算时间的策略(3)
下定决心一定要处理完这件事,现在总结一下:(1)再次换用htseq-count进行计数处理,更进一步的研究一些现成的工具的运算的方法,励志要彻底的解决它!!(不能放弃!)(base) [xxzhang@mu02 chr1]$ htseq-count -f bam result_chr1.bam hg38.gtf >counts2.txt[E::idx_find_and_load] Could not retrieve index file for 'result_chr1.bam' [E.原创 2021-09-26 10:10:16 · 528 阅读 · 0 评论 -
实验记录 | 提高运算时间的策略(2)
我现在想要更加细致的对这个数据进行探索。脑子里有一个大概的框架。(1)我们现在有两个输入文件family的基本的信息比对的结果文件(2)将两个数据文件拆分按照染色体的情况,拆分两个文件按照比对的位置,对染色体进行排序(3)分通道对文件进行比对对应染色体的文件和对应染色体的比对结果进行比对,减少了没必要的检索时间(4)因为对数据进行了排序的处理,所以如果在前面的比对结果中比对上的reads考虑去除(暂时不,因为可能一条reads是横跨两个重复序列的区域的,虽然这种情况比较罕见)(.原创 2021-09-21 15:09:58 · 1976 阅读 · 0 评论 -
实验记录 | 提高运算时间的策略(1)
问题描述:最近遇到的问题就是,要遍历的文本很大,处理起来非常的慢,现在想要优化这个算法,缩短程序运行的时间在我们可以接受的范围内。目前可以考虑到的优化策略是:(1)将数据文件拆分成若干小的文件,我们使用程序对其进行并行的运算,最终将运算的结果进行输出整合和计数。(2)使用多核进行处理(我现在还不太明白老师说的核指的是什么意思?)。(3)老师介绍的,数据结构上的优化,使用哈希,先大概的定位到一个位置,然后再对其进行细分(这个策略需要好好设计一下算法)1。准备数据文件这次我打算从头开始,整个文件.原创 2021-09-13 15:12:02 · 857 阅读 · 1 评论 -
实验记录 | 读段计数策略(这周主要要解决的问题)
1。尝试一:使用HTSeq对读段进行计数(关键步骤:把Repeatfamily文档转换为gtf文档)(1)首先,用一个工具之前,当然是先下载好。参考链接:https://htseq.readthedocs.io/en/master/contrib.html#build-processCloning into 'htseq'...fatal: unable to access 'https://github.com/htseq/htseq.git/': OpenSSL SSL_connect: SSL原创 2021-09-11 16:01:51 · 1670 阅读 · 4 评论 -
实验记录 | 关于sam文件的一些疑问解答
1。同一个序列名,为何比对的sequence会不一样?(base) [xxzhang@mu02 trash]$ awk ' $2=="0" && (80029677< $4 )&& ($4<80029976 )' AluYe2_chr5.samA00928:207:HYLCHDSXY:2:1144:25898:22075 0 chr5 80029767 60 151M * 0 0原创 2021-09-01 20:59:02 · 1206 阅读 · 0 评论 -
实验记录 | scATAC-seq数据的比对(五)
现在我有比较充足的时间来做这件事。但是却陷入了前所未有的迷茫期。按照我预先的思路是先统计落在我们感兴趣的那块区域的reads的数目。现在虽然计算出来了,但是却让我更加迷茫了。所有细胞中,落在这一处的只有这么点儿?反正还包括了重复序列的reads,总的算起来才48条。让我很是迷茫。所以,现在想要从...原创 2021-09-01 11:31:53 · 1158 阅读 · 0 评论 -
实验记录 | scATAC-seq数据的比对(四)
学到新的东西真开心啊!如果没有讲文献的压力,我愿意一直当个学生!今天学到awk的一个小指令,真好玩啊!实现了我的需求。不过数据量超大始终是一件让人烦恼的事情。shell的文本处理指令可能就是为之而生的吧。awk '$3=="chr5"' result2.sam >chr5.sam #筛选第三列为chr5的数据如果能够顺利的截取下来,也许文件会比较小,这样的话就可以截取其比对到我们感兴趣的区域的reads数。...原创 2021-08-29 15:26:24 · 506 阅读 · 0 评论 -
实验记录 | scATAC-seq数据的比对(三)
1。subfamily计数接着咱们之前的一些处理的步骤。就是说写一个指令,遍历执行语句:samtools view redup.F2.bam | grep "AluYe2" >AluYe2.samcat AluYe2.sam | wc -l#获取屏幕的输出的结果,格式为:AluYe2\tnumber(到时候直接画成histgram)#甚至觉得有了那个list之后,可以直接用代码搞定。#这里要替换的值,可能只有subfamily的名字(如果让我一个个手动去看的话,鬼知道要猴年马月?)原创 2021-08-25 10:07:14 · 231 阅读 · 0 评论 -
实验记录 | scATAC-seq数据的比对(二)
1。重新核实咱们感兴趣的序列属于哪一个家族?首先需要建库。bowtie2-build humrep.fasta HumRepbowtie2 -f --local --very-sensitive -x HumRep -U aluY.fasta -S aluY.samsamtools view -b aluY.sam >aluY.bam#这次就没有报错了。但是仍然存在一些问题。(base) [xxzhang@mu02 RepeatAnnoation]$ grep "ALU" aluY.sa原创 2021-08-22 09:26:05 · 543 阅读 · 0 评论 -
实验记录 | scATAC-seq数据的比对(一)
ATAC-seq数据,用于测序的reads如图所示。按照它的参考文件中的描述,一共有4条测序的reads。(1)双端测序的Read 1N和Read 2N,这部分序列就是插入的序列。==>分别对应的是R1和R3的信息(2)index序列:8bp ==>对应的是I1的信息(3)10X barcode & spacer:16bp + 8bp =24bp ==>对应的是R2的信息我们从序列的角度看看是怎样的情况:(base) [xxzhang@mu02 V1C]$ head..原创 2021-08-20 13:46:05 · 2894 阅读 · 2 评论 -
实验记录 | 8/17
刚刚坐地铁的时候,突然想到,既然到两条reads,整合起来进行拆分非常麻烦,为什么不可以先将他们拆分成为单个的细胞,然后再对同一个细胞进行整合呢?虽然这个可能麻烦了点,可能需要用shell写个循环,但是应该不算太难。我现在其实对于第一次拆分的结果并不是特别的满意,当时对于这部分的原理不太明白就瞎做。这样很不严谨。每一个专业人员,应该对其所做的事情负有绝对认真尽责的态度。现在要做的事情,主要有四件:(1)首先,明确自己第一次拆分和第二次拆分的区别:是否保留唯一的UMI对于结果有怎样的影响?找到的.原创 2021-08-18 09:37:57 · 109 阅读 · 0 评论 -
实验记录 | 8/15-8/16 完成数据的合并和拆分
grep "AAACAGCCAATGAAGC" R21010305-3-wenku-S1-3-wenku-S1_combined_R1.fastq | wc -l67004grep "AAACAGCCAATTGCGC" R21010305-3-wenku-S1-3-wenku-S1_combined_R1.fastq | wc -l48953###############################################################################原创 2021-08-16 21:41:40 · 361 阅读 · 0 评论 -
实验记录 | 8/14
现在是(15:12)。今天不知道要干什么?继续解决问题吧。然后整理思路,周一要跟老师汇报的结果文件。(base) [xxzhang@mu02 GEXst]$ cat R21010305-3-wenku-S1-3-wenku-S1_combined_R1.fastq |wc -l1261481144(base) [xxzhang@mu02 GEXnd]$ cat R21010305-3-wenku-S1-3-wenku-S1_combined_R1.fastq |wc -l5169014456(.原创 2021-08-14 17:44:24 · 249 阅读 · 0 评论 -
实验记录 | 8/12
反思了一下给自己造成压力的原因,还是那篇《nature》的文章实在是太难读了。不仅图特别难理解,而且用的方法更是我从来没有见过的,给我造成了不小的压力。现在想来,何必呢?硬骨头留到以后啃,现在自己能力还不够,也的确很菜。所以,本来周二就应该做好的决定,就留到周四正式的做决定。(1)27号的文献,讲不了nature那么高级的,我决定讲偏向于生物学方面的在正常的细胞中找突变的那篇review。这个对于我难度小一点,且压力没有那么大,用来面对最近的乱糟糟的事情。==>这个决定了之后,压力就小了很多,接.原创 2021-08-13 12:46:34 · 414 阅读 · 0 评论 -
实验记录 | 8/8 阶段性结果整理(二)
接下来就是验证自己非常感兴趣的一些论题了。1、去除BQSR&indel realignment环节,对于结果的影响。2、lofreq&strelka结果的影响。现在要做的事情就是选择要比较的样本(运行时间相对比较短的)。然后修改somatic.pl的代码。总体上说来就是,把模糊的任务拆分成具体可行的步骤,然后一点点的一丝不苟的去执行。现在敲定,选择NBMA3、OX1931B10、OX1071A5作为测试的数据集,选择的原因主要是,数据量小,可能运行起来会相对而言比较快一点。(1.原创 2021-08-08 21:41:48 · 708 阅读 · 0 评论 -
实验记录 | 8/7 阶段性结果整理(一)
终于在两点左右,跑完了所有的样本。也算时间上掐算的及时,接下来就可以一系列的探索自己想要做的事情啦。加油!1。运行CML的sclineager,查看聚类结果。(17:12)完成。setwd("F://张秀秀//过程性文件//8//7")#install.packages("devtools")#devtools::install_github("inmybrain/SClineager",subdir = "SClineager")#需要安装Rtools#writeLines('PATH.原创 2021-08-08 13:17:51 · 289 阅读 · 0 评论 -
实验记录 | 8/6 文献阅读
今天的主要任务:(1)读两篇文献,反正接下来的时间就是等待。还不如让这个等待的时间更加充实一点。(2)QC,还是要看一下数据的基本情况,看看拆分的对不对?(3)生信技能树上推荐的那篇smart-seq和10X数据的区别,如果只是测序UMI,那可能我的分析思路就有问题了。(4)看一下作者拆分的代码。我想还是跟我想象的有区别的,只有熟悉了它是怎样拆分的,才能保证这个结果的出现是在你的预期之内的。(5)整理bioart公众号上关于祖细胞的那篇文章。今天想做的事情还是挺多的。而且现在情绪正常,心情愉.原创 2021-08-07 14:20:22 · 157 阅读 · 0 评论 -
实验记录 | 8/5
忙活好现在一堆乱七八糟的事情,到现在已经将近11点了。那么今天就从现在开始。首先回顾前两天做的事情。前两天主要就是:(1)使用CML的其他数据,再次验证在已知标签的情况下,我们能不能将这些样本聚类在一起,也就是说验证sclinager的可行性。==>现在这部分的数据已经在运行,预计8.7结束可以完成这28个样本的运行,并得到阶段性的结果。按照已知类别标签标记的热图,看是否可以聚在一起。(2)另一方面,想要尝试优化这个流程。最重要的是时间方面的,有无必要砍掉预处理的环节,因为时间消耗最大.原创 2021-08-05 19:13:29 · 256 阅读 · 0 评论 -
实验记录 | 8/4 拆分10X Genomics数据
今日目标:(1)了解10X的数据的基本内容,我大概的看一下学姐发给我的这些数据都有啥,长什么样子的。毕竟fastq数据自己还是比较熟悉的。(2)另外一方面,研究一下splitter的使用,其中有一些参数会根据你的数据的特征进行调整,我看一下主要的区别是什么?(3)尝试修改splitter的代码,拆分数据(先有这个目标,虽然今天一天不一定可以搞定)。(10:42)现在开始做这件事(之前都在摸鱼,不应该)。1。10X Genomics的数据的基本格式学姐给我的数据是这样的。而我从10X G.原创 2021-08-05 09:54:21 · 1666 阅读 · 0 评论 -
实验记录 | 8/3
今天早上目标:(1)将OX1931、CML656两个病人的sra文件转换为fastq文件。(2)根据注释信息,选择我们想要进一步测试的来源于不同患者的fastq文件。for i in $(cat ls.log); do fastq-dump --split-files --gzip /home/xxzhang/workplace/QBRC/data/CML/OX1931/$i/$i.sra; done for i in $(cat ls.log); do fastq-dump --split-原创 2021-08-04 09:56:54 · 836 阅读 · 0 评论 -
项目实战 | sclineager包的安装与使用
注明:我怕我忘了。下次在运行我们的数据的时候,记得要认真核实一下我们的somatic.pl这个文件。我记得上次,我为了测试出和作者一模一样的结果,对参数改了很多次。所以,真正的运行我们的数据的时候,一定要记得认真核实。现在开始安装sclineager包。上次我在我的PC的R环境中,有安装sclineager,但是我的电脑的内存太小了。有一天,一定会遇到很多的数据的。所以,这个时候,我们要在这个电脑上运行这个数据。而且,我也比较喜欢这个电脑的宽屏和存储空间,我的电脑的存储空间几乎告罄。好,废话少说,现.原创 2021-08-01 13:00:47 · 966 阅读 · 0 评论 -
项目实战 | 利用seurat包标记感兴趣的细胞群(再次分析)
之前分析的,和老师讨论之后,还是有问题。明天,要向唐老师汇报这件事(既然交给我,我就要把它认认真真的完成。)##########################加载完成数据#############################################################setwd("F://Rworkplace//唐老师的差异分析//结果文件整理")library(dplyr)library(Seurat)library(patchwork)library(ggplo.原创 2021-07-27 11:43:58 · 3058 阅读 · 0 评论 -
实验记录 | 为什么mtDNA的fastq数据会比对到常染色体上?
刚刚验证了一下,原始的数据文件并没有弄错。因为又从sra数据库中下载了这个文件,比对了作者提供的数据和我们下载解压后的数据,发现是同样的大小,因此,从原始数据层面可以控制是一致的。Source name ATCCOrganism Homo sapiensCharacteristics cell line: TF1cell type: hematopoietic cell lineclone id: G10Treatment protocol NAGrowth protocol R原创 2021-07-25 19:19:46 · 1465 阅读 · 0 评论 -
项目实战 |根据找到的variants的结果生成突变矩阵
这个代码要解决的具体需求如下:(1)将每一个细胞的突变矩阵读入R中(主要有46个数据矩阵)(2)筛选突变位点(要求:至少在4个细胞中出现)(3)整合生成最终的突变位点集(4)计算每一个突变位点在每一个细胞中对应的VAF值(5)整合各个细胞的VAF值,形成突变矩阵(6)根据突变矩阵,绘制heatmap图,完成任务我们需要我们的程序能够完成这些事儿,现在开始(16:06)。...原创 2021-07-12 11:24:49 · 772 阅读 · 0 评论 -
实验记录 | 7/5
(9:34)正式地坐到了实验室的电脑前,首先理一下今天要汇报给老师的基本思路,然后就是计划这周的主要任务就是要在基础知识上多下功夫(深入研究作者的那篇文章,和我这一个月一直在运行的somatic.pl的代码)。一方面为下周的汇报做准备,另一方面就是在充分的掌握好背景知识之后,才能够帮助我更好的去跑这个流程,我的决心很大。那就集中精力,去加油吧(我是单线程的生物,拒绝干扰)。好的,现在开始。首先就是上次的遗留问题,还没有进一步落实和明确的。我的数据虽然能够覆盖到作者的位点,但是存在大量的“冗余”。有发邮原创 2021-07-06 09:16:07 · 79 阅读 · 0 评论 -
实验记录 | 6/30-7/4
参考链接:https://gatk.broadinstitute.org/hc/en-us/articles/360056969692-Mutect2参照官网得mutect2的示例代码,运行(随意): ./gatk Mutect2 -R /home/xxzhang/workplace/QBRC/geneome/hg19/hg19.fa -I /home/xxzhang/workplace/output/tumor.bam -O mutect.vcf出现错误:Error: Invalid or c原创 2021-07-05 09:31:18 · 545 阅读 · 0 评论 -
实验记录 | 6/29
使用scSplitter拆分10X 的数据的时候,出现了问题。EXITING because of FATAL ERROR in reads input: quality string length is not equal to sequence length@ST-K00126:608:HWNLJBBXX:6:2115:23480:3459@ST-K00126:608:HWNLJBBXX:6:1212:4005:42513 2:N:0:GATCTCAGSOLUTION: fix your fa原创 2021-06-30 10:46:09 · 1209 阅读 · 1 评论 -
实验记录 | mutect的安装与运行
参考链接:https://github.com/broadinstitute/mutecthttp://gatkforums.broadinstitute.org/categories/mutect原创 2021-06-29 14:24:32 · 2429 阅读 · 1 评论 -
实验记录 | 6/22 至 6/29
nohup perl somatic.pl NA NA ./example/example_dataset/sequencing/SRR7246238_1.fastq.gz ./example/example_dataset/sequencing/SRR7246238_2.fastq.gz 32 hg38 ./geneome/hg38/hg38.fasta /home/xxzhang/workplace/software/java/jdk1.7.0_80/bin/java ./output human 1原创 2021-06-29 11:58:08 · 931 阅读 · 0 评论 -
实验记录 | 6/21结个尾吧
mutect的结果报错,对我而言始终是一件如鲠在喉的事情。今天上午,就入手解决这件事情。首先,先理清楚汇报的主要的思路(也不用过于紧张,平常心就好)。所以,究竟是什么呢?刚开始,比较纠结于到底是使用mutect1还是mutect2,后来去网上调查比较后发现,mutect1更加专长于对单核苷酸变异的检测,而mutect2则在这个基础上,与GATK结合,更加专长于indel的检测。所以,综上所述,我应该试着跑完mutect1的流程。或者,现在开始配置cnv.pl的环境。...原创 2021-06-21 17:00:07 · 305 阅读 · 0 评论 -
经验总结 | 与perl有关的环境设置:symbol lookup error
写在前面,最近由于项目的原因,遇到一处bug,折腾了三天,中间尝试了许多的方法,走过许多的弯路,都没有得到答案。最终在师兄的帮助下,“解决”了这个问题。再次,把这一路的尝试的过程,列出来,作为经验的总结。我的错误的具体内容是:/usr/bin/perl: symbol lookup error: /opt/perl5/lib/perl5/x86_64-linux-thread-multi/auto/List/Util/Util.so: undefined symbol: Perl_xs_hands.原创 2021-06-19 17:40:59 · 6545 阅读 · 0 评论 -
实验记录 | mutect问题详解:No tribble type was provided on the command line and the type of the file?
出错详情:/home/xxzhang/workplace/software/java/jdk1.7.0_80/bin/java -Djava.io.tmpdir=./output_RNA/mutmp -Xmx31g -jar /home/xxzhang/workplace/QBRC//somatic_script/mutect-1.1.7.jar --analysis_type MuTect --reference_sequence ./geneome/hg19/hg19.fa --dbsnp ./gen原创 2021-06-19 09:01:54 · 628 阅读 · 0 评论 -
实验记录 | Shimmer运行过程中的lib依赖问题(2)
要安装的模块有如下:模块名称存在位置下载地址Crypt::SSLeayexport PERL5LIB=/home/xxzhang/miniconda3/lib/5.26.2/Crypt-SSLeay-0.72/lib:$PERL5LIBhttps://cpan.metacpan.org/authors/id/N/NA/NANIS/Crypt-SSLeay-0.72.tar.gzData::UUIDDevel::SymdumpTerm::ReadKey原创 2021-06-18 09:40:44 · 916 阅读 · 0 评论 -
实验记录 | shimmer运行过程中的lib依赖问题(1)
问题描述:perl /home/xxzhang/workplace/software/Shimmer/shimmer.pl --minqual 25 --ref ./geneome/hg19/hg19.fa /home/xxzhang/workplace/QBRC/output_RNA/normal/normal.bam /home/xxzhang/workplace/QBRC/output_RNA/tumor/tumor.bam --outdir ./output_RNA/home/xxzhang/原创 2021-06-17 17:52:10 · 694 阅读 · 1 评论 -
实验记录 | 6/16
(9:52)首先理清楚老师的需求。(1)希望能够完整的复现这个过程。(2)希望复现的结果足够准确。(就是,你如何证明你的处理过程是正确的?===>复现结果与文献一致)(3)希望你能够理解,这个pipeline 各个环节的意义(这一块我觉得是最难的,你如何理解它每一步的操作?为什么要这样处理?你能否根据自己的实际需求,对其进一步地作出个性化的调整?)。这三点也是我现在对自己的要求。接前面的步骤。我们早上来的时候,发现在out_RNA的结果文件夹中,生成了我们期待的三个文件。...原创 2021-06-16 18:06:20 · 640 阅读 · 0 评论 -
实验记录 | 6/15 speedseq的编译安装
刚刚用了一个小时的时间整理回顾了上周的工作内容。接下来,重新梳理问题来源。通过我们本次实验所得到的结果文档germline_mutations.txt的文档的结果可以看出,RNA的calling使用到了非常多的caller,但是,却最终只有varscan得到了calling的结果,为什么?我们需要回顾一下,somatic.pl的源代码文件,它这部分是怎样进行处理的?(我现在能够做什么,来解决这个问题)以上,我先去吃个饭。切换到Linux平台下。在吃饭的过程中,这部分指令可以继续运行。...原创 2021-06-15 21:32:16 · 655 阅读 · 0 评论 -
实验记录 | 6/12
突然想到,曾经遇到过相似的问题。于是查看之前的实验记录:sort -k1,1V -k2,2n CosmicCodingMuts.hg19.vcf >CosmicCodingMuts.hg19_sorted.vcf最后,成功。grep -o -E "^\w+([-+.]\w+)*" CosmicCodingMuts.hg19_sorted.vcf |uniqchr1chr2chr3chr4chr5……是我们想要的结果。所以,我们需要对我们在处理的过程中,“遇到问题-解决问题”的原创 2021-06-15 14:01:16 · 752 阅读 · 0 评论 -
实验记录 | 6/11
(9:22)早上来的时候,检查发现,昨天是(8:23)的时候,运行完成。昨天挂机的时间是(19:00),所以,整体上,运行原创 2021-06-12 16:44:57 · 6776 阅读 · 2 评论