自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

sweet_yemen的博客

原创转座子插入位点分析4------PS转座子测序数据分析

可以看到，所有序列都存在一个“GTGTCAAATACTTATTTTCCCCGCTGTA”的前导序列，这可能是接头序列之类的，我们使用cutadapt工具将其去除。（注意：在使用samtools对bam文件进行索引之前必须对bam文件进行排序，否则会报错）不行，还是太大了，文件超过了三千万行，远超过了excel的处理能力，寻找其他方法进行统计。这是经公司使用fastp质控后的数据，我们先挑选部分数据进行比对，观察序列结构。所有数据的该序列都被去除，我们再来比对一下，看看是否存在还需要修剪的序列。

2024-03-24 22:51:17 696

原创转座子插入位点分析3------公司质控数据的自主分析

可见这部分修剪掉的序列可能也是接头序列，被修剪掉了，而在我的之前的自主分析中，这部分序列被保留了，在BWT的比对算法中，如果匹配到正链中，这部分序列并不影响比对的起始位置，如果是匹配到负链，这部分序列会使其丢失匹配，这也是为什么我的数据中比对到负链的结果重复性很差的原因。可以看到，公司修剪后的结果均带有一个CGCCAGGCCC,而相应的，其后大多数带有“TTT”，这符合公司统计的插入位点碱基的统计结果，下图。在包含了CGCCAGGCCC的序列中，还修剪了3’端的序列，我们将这些序列比对一下，结果如下。

2024-03-22 16:59:18 475

原创转座子插入序列分析2-自制分析流程

我们先观察一下测序的结果，是否有一些什么规律，因为使用的靶向富集法的测序，我们使用了特殊序列将插入了转座子的部分钓了出来，然后进行的测序，所以理论上富集到的所有序列都应该存在一段与我们钓鱼序列互补的“靶点序列”。我们可以看到，蓝色部分三个TTT前面的序列几乎相同，这是最典型的插入位点的特征，占所有插入位点特征的60%。

2024-03-22 01:17:32 411

原创转座子插入序列分析1-GENE-IS分析管道

如果你使用 GENE-IS: Saira Afzal et al。，2016请引用这篇研究文章。GENE-IS 是从临床和临床前基因治疗研究的下一代测序数据中提取整合位点的管道。它是专门为了接受来自不同方案如 LAM (线性扩增介导) PCR 和靶向测序(SureSelect/AGILENT)方法的测序读数而设计的。

2024-03-19 18:14:22 932

原创机器学习之DeepSequence软件使用学习3-预测突变效应

我们将介绍加载模型和预测突变影响的基本函数。

2024-03-05 22:23:29 585

原创机器学习之DeepSequence软件使用学习2-helper模块学习

在学习1中粗略地运行了一下软件的例子文件，但其中的很多东西都未能理解。该文中主要是对helper模块中代码的初步注释及学习以求能够熟练使用该软件。

2024-02-06 00:47:44 446

原创机器学习之DeepSequence软件使用学习1

DeepSequence 是一个生成性的、无监督的生物序列潜变量模型。给定一个多重序列比对作为输入，它可以用来预测可获得的突变，提取监督式学习的定量特征，并生成满足明显约束的新序列文库。它将序列中的高阶依赖性建模为残差子集之间约束的非线性组合。要了解更多信息，请查看论文（https://www.biorxiv.org/content/early/2017/12/18/235655.1）和下面的例子。

2024-02-02 01:16:30 663

原创 Hiblup软件学习3-运行hiblup

SBLUP 模型是一种使用来自 GWAS/meta 分析的总结数据和来自具有个体水平数据的参考面板的 LD 矩阵来估计标记效应的方法(Robinson 等，2017)。摘要数据须如本文所述，以 COJO 格式制备。

2024-01-26 16:58:28 1745

原创 HIBLUP软件学习2-输入文件格式

列为 SNP，效应等位基因，其他等位基因，效应等位基因的频率，效应大小，标准误差，p 值和样本量。注意“ A1”需要是效应等位基因，“ A2”是另一个等位基因，“ FREQ”应该是“ A1”的频率。此文件需用参数项--sumstat。

2024-01-25 00:23:21 1303

原创 Hiblup软件学习1

hiblup软件介绍

2024-01-24 21:14:38 777

原创 CNV预实验1-使用GenomeStudio进行芯片原始数据的处理

再点进去之后就是每个芯片的分型数据，芯片的分型数据包含两个文件，即以Grn.idat和Red.idat结尾的原始分型文件，即红光和绿光所在位置的测序文件。这个区域展示了SNP的信息，包括每个位点的染色体号，物理位置以及关键的每个个体在该位点识别的基因型。接着选择要分析的芯片的原始数据文件，注意这里只需要选择之前提到的以iDats结尾的文件夹即可。红框选择芯片对应的支持文件，这个文件可以在illumina公司直接下载对应的。但也有比较差的情况，这种分出来的基因型是不准确的，后续分析中一般会剔除。

2023-09-25 12:54:10 735 2

原创 CNV学习7（试运行）

CNV学习7（试运行）

2023-05-06 17:38:35 321 1

原创 CNV学习6（在 Illumina BeadStudio/GenomeStudio 软件中运行 PennCNV ）

CNV学习6（在 Illumina BeadStudio/GenomeStudio 软件中运行 PennCNV ）

2023-05-06 12:21:00 487

原创 CNV学习5（联合调用算法）

CNV学习5（联合调用算法）

2023-05-06 11:42:30 206

原创 CNV学习4（CNV软件使用学习--软件安装（windows、linux））

CNV学习3（CNV软件使用学习--软件安装（windows、linux））

2023-05-06 11:19:30 802

原创 CNV学习3（CNV软件使用学习--input）

CNV学习3（CNV软件使用学习--input）

2023-05-05 20:42:27 751

原创 CNV学习2(illumina芯片分析CNV的主流软件------PennCNV)

PennCNV学习

2023-05-05 12:47:49 781

原创 PLINK-GWAS学习9------对于二元数据的关联分析

前期的准备文件：上一个教程中的HapMap_3_r3_13 (with .bed, .bim, and .fam. extensions) and covar_mds.txt。

2022-08-31 15:09:44 1644

原创 PLINK-GWAS学习8--------检查人口分层

人群分层：一项研究中存在多个亚群（例如具有不同种族背景的个体），因为等位基因频率在亚群之间可能不同，所以群体分层可能导致假阳性关联和/或掩盖真实关联。GWAS系统偏差的一个重要来源是人口分层。......

2022-08-30 23:41:34 1543

原创 PLINK-GWAS学习7------数据质控之亲缘关系质控

相关性：一对个体的遗传相关性强度。传统的GWAS假设所有的受试者都是不相关的，即没有一对个体比二级亲属关系更密切（三代内）。如果没有适当的校正，包含亲属可能会导致对SNP效应大小的标准误差的估计有偏差。...

2022-08-24 14:26:40 2438 4

原创 PLINK-GWAS学习6------数据质控之杂合率质控

个体的杂合率偏差表明样品可能受到污染以及可能存在近亲繁殖。

2022-08-22 21:24:38 3832

原创 PLINK-GWAS学习5------数据质控之H-W平衡检验

文章中对于哈温平衡检验的建议筛选阈值是不一样的，对于二元性状（病例-对照）中病例组的P值为P

2022-08-20 17:31:18 2221

原创 PLINK-GWAS学习4------数据质控之过滤稀有突变

根据MAF筛选SNP,对于常见的表型，稀有突变的作用一般较小，同时如果针对稀有突变进行选育或者研究时需要最小等位基因需要足够的个体数，那么这就需要有足够大的抽样群体，费时费力。

2022-08-19 22:52:43 940

原创 PLINK-GWAS学习3------数据质控之性别质控

根据性别检查的判断条件，女性的F值必须小于0.2，男性的F值必须大于0.8。

2022-08-19 11:46:57 1279

原创 PLINK-GWAS学习2------数据质控之缺失质控

需要进行过滤的原因是因为缺失过高的SNP位点和个体都属于低质量数据，如果将其纳入关联分析中会产生不利影响

2022-08-18 23:06:46 1072 2

原创 PLINK-GWAS学习1------了解数据格式

这个文章是学习与踩坑记录，包括一些处理流程以及遇到的坑的解决方法。

2022-08-18 19:40:19 1371

原创少量代码完成火山图绘制

不同于强大的ggplot，一个专门做火山图的r包

2022-07-12 18:43:04 773

原创分组柱状图（绘图，合并多张图）

r语言绘制分组柱状图，绘制单张图以及合并多张图

2022-07-06 16:31:22 2274

原创 CNV分析学习1（SNP芯片分型原理以及genomestudio部分结果展示）

CNV学习，持续更新中

2022-07-01 17:53:16 3756 2

原创 GO泡泡图绘制教程

GOplot里GOBubble绘图函数中各种功能的使用方法

2022-06-28 10:07:47 1775 1

原创 GOplot教程-GO柱状图（有点丑）-数据整理问题汇总

GOplot包中GO富集分析柱状图的绘制

2022-06-27 12:47:11 2106

原创气泡图代码（可用于GO富集分析等多维度绘制的数据）（有详细注释）

GO富集分析气泡图

2022-06-25 11:49:01 4620 3

原创 DAVID富集分析详细步骤（啰嗦版）

第一步：进入DAVID网站后先择start analysis。1.选择upload2.在框框里粘贴要分析的目的基因集（也可以在下面以文件的形式上传）3.在Step 2:Select Identifier中选择与你上传的基因集的格式4.在Step 3：List Type中点第一个（就是要富集分析的基因集，第二个是支持自己上传背景基因集）5.在step4：Submit List中点击Submit List这里我用的是猪的基因数据，当提交的基因集中能够注释到的基因不足80%时，就会跳出这个...

2022-06-24 22:56:02 12036 6

原创【0基础】输入cq值即获得可截断的带显著区间的显著水平的表达量柱状图

【0基础】输入cq值即获得可截断的带显著区间的显著水平的表达量柱状图

2022-02-21 18:31:44 2118 1

原创超详细GO富集分析弦图绘制（不知道算不算保姆级教程）

安装GOplotinstall.packages("GOplot")激活GOplotlibrary(GOplot)因为我喜欢用excel进行一些文本操作，所以也激活了操作xlsx格式的r包library(openxlsx)###########试运行帮助文档中的教程##########help(package = "GOplot")#点击Help Pages下的EC这里有这个数据的一些描述，例如这是内皮细胞的转录组信息详细的描述（有道翻译）数据集包含来自两个稳态组织(大脑和心脏)的内

2021-09-15 18:23:54 6731 8

原创 r语言报错：**没有被r包所提供

原因可能是这个包损坏了一个可能的解决办法：使用install.packages()将报错的这个包更新一下笔者在使用openxlsx包和readxl包读取excel文件时报的是这类错误，而且再试一次读取excel文件时会直接卡死。使用的上述办法将报错的那个版重新安装了一下，问题解决。...

2021-08-03 16:18:29 175

原创三步绘制超简单的韦恩图

百度搜索进入后往下拉上面是两种不同的输入形式，下面是输出控制项。Submit出图：里面有一些信息，上面包括各组的总计，下面是交并集的详细情况。还可以把图下载下来。

2021-08-03 12:56:16 2612

原创 STAR比对软件的--quantMode TranscriptomeSAM参数

比对时，添加上这个参数，比对的结果文件会增加一个基于转录本比对的结果文件，直接上图基于转录本比对的结果文件。其前缀是由转录本号+对应的长度组合而成。相应的，比对结果文件中的信息也是对应转录本号以及比对到转录本上的位置。...

2021-08-01 18:54:08 1097

原创对于STAR比对软件中--outSAMtype BAM SortedByCoordinate的一点浅显认识

对于STAR比对软件中--outSAMtype BAM SortedByCoordinate的一点浅显认识插入链接与图片这个选项中使用了两个参数，一个是以BAM形式生成比对的结果文件，另外一个是对比对结果进行排序。插入链接与图片排序前：可以看到比对结果的第一列的信息是一样的，第三列的比对上的染色体信息是无序的，即未经排序的比对结果文件实际是按照STAR比对时的先后顺序写入的文件。排序好的比对结果文件：结合第3、4列信息可以看出STAR是以比对到参考基因组的位置进行排序。...

2021-08-01 14:40:09 1221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除