- 博客(8)
- 收藏
- 关注
原创 基因组分析:VCF文件中位点提取以及R软件中的分析
VCF文件时基因组分析中最常见的文件类型,有时需要从中提取部分信息进行后续分析,在《vcf、plink文件格式互转》中我们已经提及了SNPs的提取方法:#在file.txt中, snp名字作为一列,无header,输出格式为vcfvcftools --gzvcf my.vcf --snps snps.txt --recode --recode-INFO-all --out filter.snp在实际应用中,还有许多变化,这里列出两个例子:1.根据染色体(CHR)和物理位置(PS)筛选SNP有些情
2021-09-23 13:54:45 12074 4
原创 超大量数据绘图
最近遇到个问题,需要做一个散点图,but,问题是有一千多万个点。R是可以做, but,内存不够,或者耗时,再或者输出文件巨大无比,用Adobe Acrobat打开文件一直在画圈。显然,需要换思路。网上找到一个可以从超大量数据中取样的方法,分享给有需要的人原文链接:Plotting of very large data sets in R重要前提:画图的目的是展示趋势,而不是具体看某些点的位置,否则,涉嫌操纵数据,请结合自身需求使用。Problem is you can’t load all da
2021-09-22 18:57:10 1819
原创 将散点图中的点根据分组与质心(centroid)相连
本文代码引用自:加拿大麦克马斯特大学数学与统计系教授Ben Bolker的Github页面(https://gist.github.com/bbolker/c2a8cff3c040f59195d3d5df5182cb5d#file-geom_cstar)ggplot2自带的stat_ellipse可以为分组添加椭圆,有些时候,我们想添加如图所示的质心连线,下面的公式简单易用:首先定义函数:library(ggplot2)StatCentSeg <- ggplot2::ggproto("Sta
2021-07-28 11:11:20 700
原创 vcf、plink文件格式互转
1.plink转vcfplink --file test --make-bed --out test_1 ###此步是将map和ped文件转换为二进制的文件plink --bfile test_1 --recode vcf-iid --out test_vcf ###这样就把plink文件转换成vcf格式了2. 将vcf格式文件转化为plink格式文件vcftools --vcf my.vcf --plink --out plink3. 也可使用plink进行转换plink --vc
2021-04-05 17:14:57 11630 4
原创 使用R和Python操作大型数据文件
最近有些大型数据文件,每个大概500万行,用R read.delim或read.csv函数大概一个要读10分钟,于是在网上搜索快速解决方案,整理如下1. 读取大型文件工具:R data.table软件包函数:fread()> library(data.table)> dt1 <- fread("test.txt", sep = "\t",header = FALSE, na.strings = "NA") 实测,500万行,13列,64Gb Linux系统中,读取大概10
2021-04-05 16:33:17 367 2
原创 微生物生态:从phyloseq对象输出β多样性箱线图
微生物生态:从phyloseq对象输出β多样性箱线图有些时候,β多样性的比较都是用排序的方法实现,但也可以换换口味,用箱线图比较,比如这样:这时候,需要利用Bray-Curtis,或者其他类型的距离矩阵,分组统计。如果你的距离矩阵包含在phyloseq里,那么下面的代码会帮你把phyloseq对象,转换为可以做箱线图的格式。library(phyloseq)physeq = merge_phyloseq(physeq, sampledata, random_tree)physeqwu = p
2020-12-11 09:04:07 3733 1
转载 学习笔记(2):从零开始学习机器学习视频教程-几种特殊矩阵(旧)
人工智能作为现在最为火热的领域,使得机器学习被越来越多的人所了解。机器学习难学,主要的难度在于算法模型多不好理解,各种各样的工具不知道如何使用,实际项目不知道如何开发。本门课程将系统入门机器学习,课程内容不光是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。让大家对机器学习算法有个全面的了解,并应用到你的实际项目中。 整体课程...
2020-07-31 20:55:48 117
转载 学习笔记(2):从零开始学习机器学习视频教程-矩阵特征值特征向量的计算
人工智能作为现在最为火热的领域,使得机器学习被越来越多的人所了解。机器学习难学,主要的难度在于算法模型多不好理解,各种各样的工具不知道如何使用,实际项目不知道如何开发。本门课程将系统入门机器学习,课程内容不光是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。让大家对机器学习算法有个全面的了解,并应用到你的实际项目中。 整体课程...
2020-07-31 20:28:09 135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人