![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生物信息
文章平均质量分 63
klcola
此人很懒,但也不是什么都没有写
展开
-
两个 0 1 向量之间的相关性计算
本文主要思想来自https://www.cnblogs.com/dan-baishucaizi/p/10096316.html假设 a\bf aa、b\bf bb 两个 0 1 向量a= (x1,x2,⋯ ,xn),其中xi∈{0,1}b= (y1,y2,⋯ ,yn),其中yi∈{0,1}\begin{aligned}\bf{a} =& \ (x_1, x_2, \cdots, x_n), 其中 x_i \in \lbrace 0, 1 \rbrace \\\bf{原创 2022-01-15 16:45:08 · 1272 阅读 · 0 评论 -
MacOS 下 Emacs 安装及 ESS 配置
安装 Emacs在这里下载 Emacs 安装https://emacsformacosx.com/安装完成后,emacs 的可执行文件路径是/Applications/Emacs.app/Contents/MacOS/Emacs 执行如下操作mkdir $HOME/bincd $HOME/binln -s /Applications/Emacs.app/Contents/MacOS/Emacs emacs修改 .profile 文件,将 $HOME/bin 目录添加到 PATH 中原创 2022-01-14 20:28:37 · 1070 阅读 · 0 评论 -
在 Ubuntu Linux 系统中安装软件时如何指定版本号
ubuntu 系统官方的软件仓库一般会为某个软件提供几种版本供用户选择安装,如果不指定版本号,系统会默认选择最新的稳定版进行安装。但工作中经常会因为兼容性的问题,需要我们安装某个软件的具体版本,这个时候该如何操作呢?首先,我们可以查看系统中某个软件都提供了哪些版本可供安装,这可以利用 apt-cache madison 命令来实现,废话不多说,直接看 bash 命令行代码$ apt-cache madison r-base r-base | 4.0.2-1.1804.0 | https://cl原创 2020-09-13 16:20:27 · 5503 阅读 · 2 评论 -
如何查看已安装的 Ubuntu Linux 的版本号?
在安装有些软件的时候,需要根据 ubuntu 具体的版本号来下载指定的软件版本,那么怎么才能知道自己在用的 ubuntu 系统是哪一个版本呢?用系统自带的 lsb_release 命令,就可以查看正在使用的 ubuntu 系统的版本号。例如$ lsb_release -aNo LSB modules are available.Distributor ID: UbuntuDescription: Ubuntu 18.04.4 LTSRelease: 18.04Codename原创 2020-09-11 15:08:23 · 1877 阅读 · 0 评论 -
利用 ggplot2 绘制 Seurat 对象中的 tSNE 或 UMAP 图
Seurat 软件自带的绘图函数 DimPlot 虽然也提供了一些参数来供我们调整图形,但有时仍然有些你希望的功能不太容易实现,比如将细胞聚类分成三组,每一组是一种颜色,利用 DimPlot 就不容易实现(步骤比较繁琐:需要给细胞的 meta.data 增加额外的分组标识列,然后用 group.by 参数来为不同的分组上色)。一种更灵活的方法是把 tSNE 或者 UMAP 降维的信息从 seurat 对象中提取出来,并利用 ggplot 作图。具体代码如下:## 假设我们有 Seurat 对象存储在 s原创 2020-08-21 15:51:22 · 11480 阅读 · 2 评论 -
如何根据 ID 快速从 fastq 文件中提取序列
第一种方法:使用 grep -A 选项第一种方式比较简单,用 Linux 系统自带的 grep 命令就可以实现。grep 的 -A NUM 选项在匹配行之后打印尾随的 NUM 行,而 fastq 格式恰好是 4 行代表一个序列,第一行是序列 ID,随后三行分别是序列、+号分隔符、碱基质量分数,因此我们用 grep -A3 选项,就可以将匹配到的序列 ID 和该 ID 对应的其他信息提取出来。举例如下:bash$ grep -A3 '@A00821:376:H3V2LDSXY:3:1101:12753:3原创 2020-08-08 13:46:46 · 10963 阅读 · 1 评论 -
Ubuntu 系统下安装支持 GPU 的 tensorflow 和 keras
安装 tensorflow 前,需要先安装 NVIDIA 驱动,cuda 和 libcudnn 库。注意 tensorflow 对 cuda 版本要求比较严格,目前是需要 cuda10.1,如果安装了其他版本,tensorflow 会报找不到 cuda 动态链接库的错误。亲测根据以下 bash 命令行安装所需要的驱动和 cuda 库,能够正常工作。安装命令行来自 https://tensorfl...原创 2020-05-04 10:40:22 · 288 阅读 · 0 评论 -
如何只用 Linux 命令行来随机抽取文本数据文件的 N 行?
一句话读完版:假设从 data.txt 中随机抽取 100 行,使用如下命令shuf data.txt | head -100正文在进行机器学习或者深度学习工作的时候,我们有时希望从一个大数据文件中随机抽取一些记录来进行一些快速的预研,无须编程,仅仅用一条 Linux 命令行就可以实现我们的目的。首先来看一个例子,假设我们有数据文件 test.txt ,其内容如下11111111...原创 2020-04-30 23:17:25 · 3074 阅读 · 0 评论 -
理解如何利用偏序比对法进行多序列比对
本文翻译自 Understanding Partial Order Alignment for Multiple Sequence Alignment,原文链接在http://simpsonlab.github.io/2015/05/01/understanding-poa/Jared 开发的 Nanopolish 工具使用 poaV2 工具来对测序序列进行错误修正,poaV2 则使用了偏...翻译 2020-01-22 20:52:13 · 3232 阅读 · 6 评论 -
如何根据染色体坐标快速得到基因组的 DNA 序列
http://pythonhosted.org/twobitreader/ 提供了一个方便的小工具python -m twobitreader hg19.2bit < example.bed染色体的位置信息在 bed 文件中给出,.2bit 文件格式是 UCSC Genome Browser 的基因组序列文件索引格式,可以在 http://hgdownload.soe.ucsc.edu...原创 2020-01-18 17:35:03 · 10025 阅读 · 0 评论 -
共有序列(Consensus Sequence)
共有序列(Consensus Sequence)的概念用来描述一组 DNA 或者蛋白质序列,通常这组序列互相之间非常相似但又不完全相同,共有序列就由这组相似序列中每个位置最常出现的碱基或者氨基酸组成。...原创 2020-01-18 13:57:25 · 8988 阅读 · 1 评论 -
R 语言中如何调整 matrix 和 dataframe 中列的顺序
生物信息工作的一大苦恼就是经常需要在各种语言之间切换,Java、Bash、R、Python、C/C++、Perl,甚至还有 H/ML5/CSS/Javascript,有些常用,有些隔数月乃至数年用到一次。以至于经常是逻辑上知道一个事情该怎么做,一个功能该怎么实现,却发现找不到合适的 API。尤其是 R 语言,由于和 Java/Python 这样的传统编程语言面向的主要应用场景不同,导致做同样事情的...原创 2019-12-30 15:19:50 · 20114 阅读 · 0 评论 -
如何用 bash 命令将 fastq 转换为 fasta 格式文件?
能点进来看的都是同行,文件格式就不多说了,直接上命令行grep '^@' -A1 file.fastq | grep -v -- '--' | awk '{print $1}' | sed -e 's/@/>/' > file.fa上面的命令在 fasta 文件的 id 行里只保留了序列 id。如果想在 fasta 文件的 id 行里保留其他信息,可以去掉 awk '{print...原创 2019-12-26 10:58:23 · 1542 阅读 · 0 评论