R生物信息学统计分析

执行定量 RNAseq

用 edgeR 估计差异表达 | 用 edgeR 估计差异表达 | 使用 powsimR 进行功效分析 | 使用 GRanges 对象查找未注释的转录区域 | 使用bumphunter从头开始查找显示高表达的区域 | 微分峰分析 | 使用 SVA 估计批次效应 | 使用 AllelicImbalance 寻找等位基因特异性表达 | 绘制和呈现 RNAseq 数据

使用 HTS 数据寻找遗传变异

使用 VariantTools 在序列数据中查找 SNP 和插入缺失 | 预测长参考序列中的开放读取框 | 使用 karyoploteR 在遗传图谱上绘制特征 | 寻找替代转录亚型 | 使用 VariantAnnotation 选择和分类变体 | 在感兴趣的基因组区域中提取信息 | 寻找与 GWAS 的表型和基因型关联 | 估计感兴趣位点的拷贝数

搜索基因和蛋白质的域和基序

寻找具有通用基序的 DNA 基序 | 使用 PFAM 和 bio3d | 查找蛋白质结构域 | 查找 InterPro 结构域 | 执行基因或蛋白质的多重比对 | 使用 DECIPHER 对齐基因组长度序列 | 机器学习用于蛋白质中的新特征检测 | 使用 bio3d 进行 3D 结构蛋白质对齐

使用 SeqinR 检索基因组序列数据:

例如,您在上面学习了如何从 NCBI 网站检索具有 NCBI 登录号 NC_001477 的 DEN-1 登革热病毒基因组序列。 要检索具有特定 NCBI 加入的序列,您可以使用下面的 R 函数“getncbiseq()”,您首先需要将其复制并粘贴到 R 中:

> getncbiseq <- function(accession)
  {
     require("seqinr") # this function requires the SeqinR R package
     # first find which ACNUC database the accession is stored in:
     dbs <- c("genbank","refseq","refseqViruses","bacterial")
     numdbs <- length(dbs)
     for (i in 1:numdbs)
     {
        db <- dbs[i]
        choosebank(db)
        # check if the sequence is in ACNUC database 'db':
        resquery <- try(query(".tmpquery", paste("AC=", accession)), silent = TRUE)
        if (!(inherits(resquery, "try-error")))
        {
           queryname <- "query2"
           thequery <- paste("AC=",accession,sep="")
           query(`queryname`,`thequery`)
           # see if a sequence was retrieved:
           seq <- getSequence(query2$req[[1]])
           closebank()
           return(seq)
        }
        closebank()
     }
     print(paste("ERROR: accession",accession,"was not found"))
  }

将函数 getncbiseq() 复制并粘贴到 R 中后,您可以使用它从 NCBI 核苷酸数据库中检索序列,例如 DEN-1 登革热病毒的序列(登录号 NC_001477):

> dengueseq <- getncbiseq("NC_001477")

变量 dengueseq 是包含核苷酸序列的载体。 载体的每个元素都包含该序列的一个核苷酸。 因此,要打印出该序列的某个子序列,我们只需键入向量 dengueseq 的名称,然后输入包含这些核苷酸索引的方括号。 例如,以下命令打印出 DEN-1 登革热病毒基因组序列的前 50 个核苷酸:

> dengueseq[1:50]
[1] "a" "g" "t" "t" "g" "t" "t" "a" "g" "t" "c" "t" "a" "c" "g" "t" "g" "g" "a"
[20] "c" "c" "g" "a" "c" "a" "a" "g" "a" "a" "c" "a" "g" "t" "t" "t" "c" "g" "a"
[39] "a" "t" "c" "g" "g" "a" "a" "g" "c" "t" "t" "g"

请注意,dengueseq[1:50] 指的是向量 dengueseq 的元素,其索引为 1-50。这些元件包含 DEN-1 登革热病毒序列的前 50 个核苷酸。

系统发育分析和可视化

使用 ape 和 treeio 读写各种树格式 | 使用 ggtree 快速可视化许多基因的树 | 用树空间量化树之间的距离 | 使用 ape 提取和处理子树 | 为对齐可视化创建点图 | 使用 phangorn 从路线重建树木

宏基因组学

使用 phyloseq 加载分层分类数据 | 使用元编码器进行稀疏计数以校正样本差异 | 使用dada2从原始读取中读取扩增子数据 | 在元编码器中使用热树可视化分类丰度 | 使用纯素计算样本多样性 | 将序列文件拆分为可操作的分类单元

从光谱到注释的蛋白质组学

直观地表示原始 MS 数据 | 在基因组浏览器中查看蛋白质组学数据 | 可视化肽命中计数的分布以查找阈值 | 转换 MS 格式以在工具之间移动数据 | 使用 protViz 将光谱与肽匹配进行验证 | 将质量控制过滤器应用于光谱 | 识别与肽匹配的基因组位点

制作发布和 Web 就绪的可视化

使用 ridgeplots 可视化多个分布 | 为二变量数据创建颜色图 | 将关系数据表示为网络 | 使用 plotly 创建交互式 Web 图形 | 使用 plotly 构建三维图 | 构建多组数据的圆形基因组图

使用数据库和远程数据源

从 BioMart 检索基因和基因组注释 | 检索和使用 SNP | 获取基因本体信息 | 从 SRA/ENA 中查找实验和读数 | 对高通量序列读取执行质量控制和过滤 | 使用外部程序完成读取到参考比对 | 可视化读取参考比对的质量控制图

有用的统计和机器学习方法

校正 p 值以解释多个假设 | 生成表示背景的模拟数据集 | 学习数据中的分组并使用 kNN 进行分类 | 使用随机森林预测类 | 使用 SVM 预测类 | 在没有先验信息的情况下学习数据中的组 | 使用随机森林识别数据中最重要的变量 | 使用 PCA 识别数据中最重要的变量

使用 Tidyverse 和 Bioconductor 进行编程

使基本 R 对象整洁 | 使用嵌套数据框 | 编写用于 mutate 的函数 | 以编程方式使用 Bioconductor 类 | 开发可重用的工作流和报告 | 使用 apply 系列函数

为代码重用构建对象和包

创建简单的 S3 对象简化代码 | 利用 S3 类的通用对象函数 | 使用 S4 系统创建结构化和正式的对象 | 打包代码进行共享和重用的简单方法 | 使用 devtools 托管来自 GitHub 的代码 | 构建单元测试套件以确保功能 | 按您的意愿工作 | 使用 Travis 的持续集成来保持代码测试和更新

源代码

详情参阅 - 亚图跨际

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值