自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 基因组分析:VCF文件中位点提取以及R软件中的分析

VCF文件时基因组分析中最常见的文件类型,有时需要从中提取部分信息进行后续分析,在《vcf、plink文件格式互转》中我们已经提及了SNPs的提取方法:#在file.txt中, snp名字作为一列,无header,输出格式为vcfvcftools --gzvcf my.vcf --snps snps.txt --recode --recode-INFO-all --out filter.snp在实际应用中,还有许多变化,这里列出两个例子:1.根据染色体(CHR)和物理位置(PS)筛选SNP有些情

2021-09-23 13:54:45 12074 4

原创 超大量数据绘图

最近遇到个问题,需要做一个散点图,but,问题是有一千多万个点。R是可以做, but,内存不够,或者耗时,再或者输出文件巨大无比,用Adobe Acrobat打开文件一直在画圈。显然,需要换思路。网上找到一个可以从超大量数据中取样的方法,分享给有需要的人原文链接:Plotting of very large data sets in R重要前提:画图的目的是展示趋势,而不是具体看某些点的位置,否则,涉嫌操纵数据,请结合自身需求使用。Problem is you can’t load all da

2021-09-22 18:57:10 1819

原创 将散点图中的点根据分组与质心(centroid)相连

本文代码引用自:加拿大麦克马斯特大学数学与统计系教授Ben Bolker的Github页面(https://gist.github.com/bbolker/c2a8cff3c040f59195d3d5df5182cb5d#file-geom_cstar)ggplot2自带的stat_ellipse可以为分组添加椭圆,有些时候,我们想添加如图所示的质心连线,下面的公式简单易用:首先定义函数:library(ggplot2)StatCentSeg <- ggplot2::ggproto("Sta

2021-07-28 11:11:20 700

原创 vcf、plink文件格式互转

1.plink转vcfplink --file test --make-bed --out test_1 ###此步是将map和ped文件转换为二进制的文件plink --bfile test_1 --recode vcf-iid --out test_vcf ###这样就把plink文件转换成vcf格式了2. 将vcf格式文件转化为plink格式文件vcftools --vcf my.vcf --plink --out plink3. 也可使用plink进行转换plink --vc

2021-04-05 17:14:57 11630 4

原创 使用R和Python操作大型数据文件

最近有些大型数据文件,每个大概500万行,用R read.delim或read.csv函数大概一个要读10分钟,于是在网上搜索快速解决方案,整理如下1. 读取大型文件工具:R data.table软件包函数:fread()> library(data.table)> dt1 <- fread("test.txt", sep = "\t",header = FALSE, na.strings = "NA") 实测,500万行,13列,64Gb Linux系统中,读取大概10

2021-04-05 16:33:17 367 2

原创 微生物生态:从phyloseq对象输出β多样性箱线图

微生物生态:从phyloseq对象输出β多样性箱线图有些时候,β多样性的比较都是用排序的方法实现,但也可以换换口味,用箱线图比较,比如这样:这时候,需要利用Bray-Curtis,或者其他类型的距离矩阵,分组统计。如果你的距离矩阵包含在phyloseq里,那么下面的代码会帮你把phyloseq对象,转换为可以做箱线图的格式。library(phyloseq)physeq = merge_phyloseq(physeq, sampledata, random_tree)physeqwu = p

2020-12-11 09:04:07 3733 1

转载 学习笔记(2):从零开始学习机器学习视频教程-几种特殊矩阵(旧)

人工智能作为现在最为火热的领域,使得机器学习被越来越多的人所了解。机器学习难学,主要的难度在于算法模型多不好理解,各种各样的工具不知道如何使用,实际项目不知道如何开发。本门课程将系统入门机器学习,课程内容不光是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。让大家对机器学习算法有个全面的了解,并应用到你的实际项目中。 整体课程...

2020-07-31 20:55:48 117

转载 学习笔记(2):从零开始学习机器学习视频教程-矩阵特征值特征向量的计算

人工智能作为现在最为火热的领域,使得机器学习被越来越多的人所了解。机器学习难学,主要的难度在于算法模型多不好理解,各种各样的工具不知道如何使用,实际项目不知道如何开发。本门课程将系统入门机器学习,课程内容不光是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。让大家对机器学习算法有个全面的了解,并应用到你的实际项目中。 整体课程...

2020-07-31 20:28:09 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除