- 博客(703)
- 资源 (4)
- 收藏
- 关注
原创 Windows基于WSL搭建Python数据分析环境
最近配置了一台较为不错的台式机,记录下自己配置环境的过程。安装WSL,提供Linux环境如果你发现后续的命令无法运行或者说软件商城中找不到,这可能意味着你的操作系统不符合要求。WSL安装要求 Windows 10 version 2004(Build 19041 )及以上,或者是Windows11.以管理员身份(也就是右击命令提示符)打开Windows下的CMD或PowerShell(后续,我们统一称之为终端)然后终端中,执行如下命令wsl --install中间可能会出现几次弹窗,需要
2023-07-03 17:46:48
1417
原创 配置pytorch(gpu)分析环境
Pytorch是目前最火的深度学习框架之一,另一个是TensorFlow。不过我之前一直用到是CPU版本,几个月前买了一台3070Ti的笔记本(是的,我在40系显卡出来的时候,买了30系,这确实一言难尽),同时我也有一台M1芯片Macbook Pro,目前也支持了pytorch的GPU加速,所以我就想着,在这两个电脑上装个Pytorch,浅度学习深度学习。
2023-04-05 10:09:55
1964
7
原创 R如何正确动态创建变量名,解决target of assignment expands to non-language object
在一个群里,看到一位朋友发了一堆代码,错误代码以及一个报错信息,Error in paste(.....) :could not find function "paste←" (还有一个target of assignment expands to non-language object)他非常不理解,为什么,明明paste的用法没错,sum的操作也没有错,但是代码却出错了呢?这...
2022-11-03 11:11:52
196
原创 服务器上R调用png显示x11报错怎么办?
太长不读版- 治本的方法,服务器安装pango, 之后重新编译R语言- 治标的方法,在R的配置文件中增加`options(bitmapType='cairo')`
2022-06-28 15:26:36
1700
原创 使用非负最小二乘回(NNLS)归进行细胞类型转移
2019年发表在Nature上的文章【The single-cell transcriptional landscape of mammalian organogenesis】在方法部分提到,使用NNLS(non-negative linear-square)回归的方法分析两个细胞图谱数据集中相关细胞类型。这个方法,在我搜索的中文教程中都没有出现过,所以这里以两个pbmc的数据集为例进行介绍,如何复现文章的方法。10x的细胞数据集的预处理部分不做过多介绍, 如下代码以10x官网提供的数据为例libra
2022-03-29 09:21:13
2521
1
原创 macOS的configd占了我好多内存
在我没有启动多少应用的时候,macOS已经显示它使用了22.09GB内存。其中App内存是15.81GB, 我并没有打开那么多App.这估计跟configd有关,因为configd占用了20.55G内存。那么configd是真的占用了内存,还是就是声明自己会用到那么多内存呢?我尝试着调用了比较多的内存,直接用了29.3Gb内存cols <- 8189rows <- 320127mat1 <- matrix(data = 0, nrow=320127, ncol = 8189)
2022-02-27 10:06:01
3454
原创 对水稻的注释进行了二次整理
代码和数据都在GitHub上,见 https://github.com/xuzhougeng/rice_annotaiton
2022-02-15 21:05:22
1712
原创 SSH如何免密登录服务器
最近切换到了MacOS平台进行办公,就不能用Windows下好用的XShell,用上了传统在命令行输入 ssh -p port user@address的方式进行登录了。作为一个‘懒惰’的人,我肯定是要避免重复的运行登录命令了。回溯用过的命令进行复用是一种方式,但还是需要输入密码,所以我的操作方式如下第一步: 通过编辑 ~/.ssh/config文件, 为指定服务器增加别名Host 别名 HostName 服务器地址 User 用户名 Port 端口这样子就能用 ssh 目
2022-02-10 10:05:37
19598
原创 ARM架构的MacOS如何配置R语言分析环境
去年11月换了一台16寸Macbook Pro,用上了苹果自己开发的arm架构的M1芯片。换上新电脑后,一个重要的事情,就是配置好我的R语言分析环境,同时做一期视频教程了。本篇内容是视频教程的概要,详细版见视频。第一步,安装R语言,目前推荐Intel版本的R。相对于arm64版本的R,Intel版本的R虽然需要rosetta转译,存在性能损耗,但同时支持CRAN和Bioconductor里的预编译R包,在安装R包上会省事不少。第二步: 安装Rstudio。下载地址为 https://www.rstu
2022-02-04 11:04:07
3589
3
原创 「conda」安装软件时遇到failed with repodata from current_repodata.json 如何处理
利用conda安装软件时,遇到如下提示Collecting package metadata (current_repodata.json): doneSolving environment: failed with repodata from current_repodata.json, will retry with next repodata source.Collecting package metadata (repodata.json):原以为过一会就没问题了,然而一宿过去了,还是这个
2021-12-16 13:08:48
6869
4
原创 如何绘制物理图谱和遗传图谱的对应关系
唐海宝老师开发的JCVI有一个工具,叫做ALLMAPS, 能够展示遗传图谱和物理图谱的对应关系,如下所示但是这个图的目标是为了对ALLMAPS的scaffold结果进行可视化,并不是专门用于展示遗传图谱的标记和物理图谱的对应关系。尽管在allmaps这个组件下提供了plot函数,命令行输入只要求 input.bed 和 seqid, 但实际运行的时候还要求 allmaps path的中间文件, xxxx.lifted.bed, xxxx.agp, weight.txt等文件。为了解决这一问题,我阅读了
2021-12-13 15:33:26
3322
2
原创 创建CDF包 hursta2a520709cdf
调用函数时,遇到hursta2a520709cdf not available 也就是找不到的情况目前网络上找到资料都不够全面,详尽,正确的处理方法如下第一步,安装R包makecdfenv 并加载BiocManager::install('makecdfenv')library(makecdfenv)第二步, 在https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL15048下载 GPL15048_HuRSTA_2a520709.CDF
2021-10-15 19:16:49
635
2
原创 Rust第二课:为什么我的Rust比Python慢!
在我的Rust第一课, 我写了一个程序对fasta中的ATCG进行计数。后面,我就想到一个非常常见的需求,对文件进行读取,统计行数,类似于 wc -l下面是我写的第一个版本的代码, 我命名为myRead.rsuse std::io::BufReader;use std::fs::File;use std::env;use std::io::BufRead;fn main() -> std::io::Result<()> { let args: Vec<Stri
2021-10-13 09:44:44
948
原创 我的Rust编程第一课
在2020年5月17日,HengLi在它的一篇博客「Fast high-level programming languages」提到,他一直在寻找一门编程语言,生物学家容易使用而且速度还快。( I have always been searching for a high-level language that is fast and easy to use by biologists. )于是在这篇博客中,他评估了一些高级编程语言的处理速度,包括,C, Python, Javascript, LuaJ.
2021-08-29 13:08:47
1962
原创 如何用WGDI进行共线性分析(一点五)
在如何用WGDI进行共线性分析(一), 我们基于blastp的结果绘制了点图,之后用 -icl 模块进行进行共线性分析,得到了 collinearity 结果 。后面就直接基于该文件开始计算ka/ks,然后绘制ks plot.但是,在那篇教程的时候,我其实还有一个问题,就是能不能直接根据 collinearity 结果绘制点图呢?在WGDI提供的流程示意图中,没有这一分支虽然自己写代码实现也不复杂,但是为了避免重复造轮子,我们使用了JCVI的图形模块绘制dotplotjcvi.graphcis.do
2021-08-18 20:39:13
1613
原创 如何在IGV上使用BLAT搜索非模式物种(续)
在如何在IGV上使用BLAT搜索非模式物种中,我们讨论如何用Apache的CGI服务器,来响应IGV发送的BLAT请求。考虑到我们大部分的时候都是个人使用,并不需要Apache这种重量级的Web服务器,因此完全可以省去这一组件。我之前学过Python和Django和Flask这两种网页应用框架,其中Flask比较轻量,非常适合我们这种小型应用。因此,我就用Flask编写了一个Blat网页应用,用来响应IGV的请求。首先,安装Flask(为了避免冲突,我用了虚拟环境)mkdir myprojectcd
2021-08-18 14:40:32
251
原创 如何在IGV上使用BLAT搜索非模式物种
IGV提供了BLAT,用于进行序列搜索,但可惜我一直用不上,因为它默认是调用了UCSC的CGI工具,将我们的输入序列发送到https://genome.ucsc.edu/cgi-bin/hgBlat处理,处理后返回JSON文件用于展示。因此,除非我们自己搭建一个UCSC类似的网站,否则,无法用到IGV的这个功能。我觉得肯定不只是我一个人有这个问题,所以我就去谷歌上用关键词 “custom genome BLAT IGV” 进行检索, 果然发现有很多人都有类似的需求,我找到最早一条是2016年,但是距今.
2021-08-17 20:21:31
527
原创 hifiasm对HiFi PacBio进行组装
hifiasm是一个能有效利用PacBio HiFi测序技术,在分型组装图(pahsed assembly gprah)中可靠的表示单倍体信息的算法。流程介绍hifiasm的分析流程如下,主要分为3个阶段第一阶段:通过所有序列的相互比对,对前在测序错误进行纠正。如果一个位置只存在两种碱基类型,且每个碱基类型至少有3条read支持,那么这个位置会被当作杂合位点,否则,视作测序错误,将被纠正。第二阶段:根据序列之间的重叠关系,构建分型的字符串图(phased string graph)。其中调整朝向的序
2021-07-28 15:08:37
6259
5
原创 Seurat执行FindNeighbor出现invalid class “Graph“ object: superclass “Mnumeric“ not defined报错
前些天发现自己系统里的一些R包实在太久了,于是头脑一热就把所有包都升级了。结果运行Seurat的时候,就卡在 FindNeighbor 了。运行到一半就提示如下报错Error in validObject(.Object) : invalid class “Graph” object: superclass "Mnumeric" not defined in the environment of the object's class于是我发动科研工作者的技能,search,查了查相关的资料,发
2021-05-08 09:59:54
4164
3
原创 加载org.Hs.eg.db为什么出现error: $ operator is invalid for atomic vectors报错和解决方法
在Bioconductor上已经有人提了问题,并且有了回答(地址:https://support.bioconductor.org/p/9136329/)简单的说,就是Rstduio出来背锅,估计以后版本的Rstudio会修复这个bug。下面是解决方法方法1 手动设置环境变量options(connectionObserver = NULL)方法2: 装个旧版本RSQLite,2.2.5之前即可install.packages("remotes")remotes::install_versi
2021-04-19 13:07:14
6350
5
原创 为什么Python中df.loc[df.a > 2 & df.b > 3, :]做行筛选时会报错
我们分别在R和python中构建一个数据框,用1到9进行填充,有3列,对应a,b,cR代码如下mat = matrix(1:9, nrow = 3, ncol = 3,byrow = TRUE)df = as.data.frame(mat)colnames(df) <- c("a","b","c")Python代码如下import numpy as npimport pandas as pdmat = np.array(range(1,10))mat = mat.reshape(3
2021-04-15 23:13:49
837
ALLMAPS-testdata.zip
2021-08-30
「群体遗传学实战」第二课的代码
2021-08-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人