- 博客(39)
- 收藏
- 关注
原创 转座子插入位点分析4------PS转座子测序数据分析
可以看到,所有序列都存在一个“GTGTCAAATACTTATTTTCCCCGCTGTA”的前导序列,这可能是接头序列之类的,我们使用cutadapt工具将其去除。(注意:在使用samtools对bam文件进行索引之前必须对bam文件进行排序,否则会报错)不行,还是太大了,文件超过了三千万行,远超过了excel的处理能力,寻找其他方法进行统计。这是经公司使用fastp质控后的数据,我们先挑选部分数据进行比对,观察序列结构。所有数据的该序列都被去除,我们再来比对一下,看看是否存在还需要修剪的序列。
2024-03-24 22:51:17 696
原创 转座子插入位点分析3------公司质控数据的自主分析
可见这部分修剪掉的序列可能也是接头序列,被修剪掉了,而在我的之前的自主分析中,这部分序列被保留了,在BWT的比对算法中,如果匹配到正链中,这部分序列并不影响比对的起始位置,如果是匹配到负链,这部分序列会使其丢失匹配,这也是为什么我的数据中比对到负链的结果重复性很差的原因。可以看到,公司修剪后的结果均带有一个CGCCAGGCCC,而相应的,其后大多数带有“TTT”,这符合公司统计的插入位点碱基的统计结果,下图。在包含了CGCCAGGCCC的序列中,还修剪了3’端的序列,我们将这些序列比对一下,结果如下。
2024-03-22 16:59:18 475
原创 转座子插入序列分析2-自制分析流程
我们先观察一下测序的结果,是否有一些什么规律,因为使用的靶向富集法的测序,我们使用了特殊序列将插入了转座子的部分钓了出来,然后进行的测序,所以理论上富集到的所有序列都应该存在一段与我们钓鱼序列互补的“靶点序列”。我们可以看到,蓝色部分三个TTT前面的序列几乎相同,这是最典型的插入位点的特征,占所有插入位点特征的60%。
2024-03-22 01:17:32 411
原创 转座子插入序列分析1-GENE-IS分析管道
如果你使用 GENE-IS: Saira Afzal et al。,2016请引用这篇研究文章。GENE-IS 是从临床和临床前基因治疗研究的下一代测序数据中提取整合位点的管道。它是专门为了接受来自不同方案如 LAM (线性扩增介导) PCR 和靶向测序(SureSelect/AGILENT)方法的测序读数而设计的。
2024-03-19 18:14:22 932
原创 机器学习之DeepSequence软件使用学习2-helper模块学习
在学习1中粗略地运行了一下软件的例子文件,但其中的很多东西都未能理解。该文中主要是对helper模块中代码的初步注释及学习以求能够熟练使用该软件。
2024-02-06 00:47:44 446
原创 机器学习之DeepSequence软件使用学习1
DeepSequence 是一个生成性的、无监督的生物序列潜变量模型。给定一个多重序列比对作为输入,它可以用来预测可获得的突变,提取监督式学习的定量特征,并生成满足明显约束的新序列文库。它将序列中的高阶依赖性建模为残差子集之间约束的非线性组合。要了解更多信息,请查看论文(https://www.biorxiv.org/content/early/2017/12/18/235655.1)和下面的例子。
2024-02-02 01:16:30 663
原创 Hiblup软件学习3-运行hiblup
SBLUP 模型是一种使用来自 GWAS/meta 分析的总结数据和来自具有个体水平数据的参考面板的 LD 矩阵来估计标记效应的方法(Robinson 等,2017)。摘要数据须如本文所述,以 COJO 格式制备。
2024-01-26 16:58:28 1745
原创 HIBLUP软件学习2-输入文件格式
列为 SNP,效应等位基因,其他等位基因,效应等位基因的频率,效应大小,标准误差,p 值和样本量。注意“ A1”需要是效应等位基因,“ A2”是另一个等位基因,“ FREQ”应该是“ A1”的频率。此文件需用参数项--sumstat。
2024-01-25 00:23:21 1303
原创 CNV预实验1-使用GenomeStudio进行芯片原始数据的处理
再点进去之后就是每个芯片的分型数据,芯片的分型数据包含两个文件,即以Grn.idat和Red.idat结尾的原始分型文件, 即红光和绿光所在位置的测序文件。这个区域展示了SNP的信息,包括每个位点的染色体号,物理位置以及关键的每个个体在该位点识别的基因型。接着选择要分析的芯片的原始数据文件,注意这里只需要选择之前提到的以iDats结尾的文件夹即可。红框选择芯片对应的支持文件,这个文件可以在illumina公司直接下载对应的。但也有比较差的情况,这种分出来的基因型是不准确的,后续分析中一般会剔除。
2023-09-25 12:54:10 735 2
原创 CNV学习6(在 Illumina BeadStudio/GenomeStudio 软件中运行 PennCNV )
CNV学习6(在 Illumina BeadStudio/GenomeStudio 软件中运行 PennCNV )
2023-05-06 12:21:00 487
原创 CNV学习4(CNV软件使用学习--软件安装(windows、linux))
CNV学习3(CNV软件使用学习--软件安装(windows、linux))
2023-05-06 11:19:30 802
原创 PLINK-GWAS学习9------对于二元数据的关联分析
前期的准备文件:上一个教程中的HapMap_3_r3_13 (with .bed, .bim, and .fam. extensions) and covar_mds.txt。
2022-08-31 15:09:44 1644
原创 PLINK-GWAS学习8--------检查人口分层
人群分层:一项研究中存在多个亚群(例如具有不同种族背景的个体),因为等位基因频率在亚群之间可能不同,所以群体分层可能导致假阳性关联和/或掩盖真实关联。GWAS系统偏差的一个重要来源是人口分层。......
2022-08-30 23:41:34 1543
原创 PLINK-GWAS学习7------数据质控之亲缘关系质控
相关性:一对个体的遗传相关性强度。传统的GWAS假设所有的受试者都是不相关的,即没有一对个体比二级亲属关系更密切(三代内)。如果没有适当的校正,包含亲属可能会导致对SNP效应大小的标准误差的估计有偏差。...
2022-08-24 14:26:40 2438 4
原创 PLINK-GWAS学习5------数据质控之H-W平衡检验
文章中对于哈温平衡检验的建议筛选阈值是不一样的,对于二元性状(病例-对照)中病例组的P值为P
2022-08-20 17:31:18 2221
原创 PLINK-GWAS学习4------数据质控之过滤稀有突变
根据MAF筛选SNP,对于常见的表型,稀有突变的作用一般较小,同时如果针对稀有突变进行选育或者研究时需要最小等位基因需要足够的个体数,那么这就需要有足够大的抽样群体,费时费力。
2022-08-19 22:52:43 940
原创 PLINK-GWAS学习2------数据质控之缺失质控
需要进行过滤的原因是因为缺失过高的SNP位点和个体都属于低质量数据,如果将其纳入关联分析中会产生不利影响
2022-08-18 23:06:46 1072 2
原创 DAVID富集分析详细步骤(啰嗦版)
第一步:进入DAVID网站后先择start analysis。1.选择upload2.在框框里粘贴要分析的目的基因集(也可以在下面以文件的形式上传)3.在Step 2:Select Identifier中选择与你上传的基因集的格式4.在Step 3:List Type中点第一个(就是要富集分析的基因集,第二个是支持自己上传背景基因集)5.在step4:Submit List中点击Submit List这里我用的是猪的基因数据,当提交的基因集中能够注释到的基因不足80%时,就会跳出这个...
2022-06-24 22:56:02 12036 6
原创 超详细GO富集分析弦图绘制(不知道算不算保姆级教程)
安装GOplotinstall.packages("GOplot")激活GOplotlibrary(GOplot)因为我喜欢用excel进行一些文本操作,所以也激活了操作xlsx格式的r包library(openxlsx)###########试运行帮助文档中的教程##########help(package = "GOplot")#点击Help Pages下的EC这里有这个数据的一些描述,例如这是内皮细胞的转录组信息详细的描述(有道翻译)数据集包含来自两个稳态组织(大脑和心脏)的内
2021-09-15 18:23:54 6731 8
原创 r语言报错:****没有被**r包所提供
原因可能是这个包损坏了一个可能的解决办法:使用install.packages()将报错的这个包更新一下笔者在使用openxlsx包和readxl包读取excel文件时报的是这类错误,而且再试一次读取excel文件时会直接卡死。使用的上述办法将报错的那个版重新安装了一下,问题解决。...
2021-08-03 16:18:29 175
原创 三步绘制超简单的韦恩图
百度搜索进入后往下拉上面是两种不同的输入形式,下面是输出控制项。Submit出图:里面有一些信息,上面包括各组的总计,下面是交并集的详细情况。还可以把图下载下来。
2021-08-03 12:56:16 2612
原创 STAR比对软件的--quantMode TranscriptomeSAM参数
比对时,添加上这个参数,比对的结果文件会增加一个基于转录本比对的结果文件,直接上图基于转录本比对的结果文件。其前缀是由转录本号+对应的长度组合而成。相应的,比对结果文件中的信息也是对应转录本号以及比对到转录本上的位置。...
2021-08-01 18:54:08 1097
原创 对于STAR比对软件中--outSAMtype BAM SortedByCoordinate的一点浅显认识
对于STAR比对软件中--outSAMtype BAM SortedByCoordinate的一点浅显认识插入链接与图片这个选项中使用了两个参数,一个是以BAM形式生成比对的结果文件,另外一个是对比对结果进行排序。插入链接与图片排序前:可以看到比对结果的第一列的信息是一样的,第三列的比对上的染色体信息是无序的,即未经排序的比对结果文件实际是按照STAR比对时的先后顺序写入的文件。排序好的比对结果文件:结合第3、4列信息可以看出STAR是以比对到参考基因组的位置进行排序。...
2021-08-01 14:40:09 1221
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人