生物信息
文章平均质量分 50
awk_bioinfo
路漫漫其修远兮,吾将上下而求索
展开
-
VCF变异结果文件详解
看懂变异记录结果文件(VCF)VCF做过DNA重测序,群体遗传进化,BSA,GWAS等项目的人都会遇到VCF文件,这个文件记录了全基因组的变异信息,如果不懂VCF文件就无法进行后续分析。VCF文件介绍:做过DNA重测序,群体遗传进化,BSA,GWAS等项目的人都会遇到VCF文件,这个文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。后续几乎所有的分析内容都是基于此文...原创 2020-01-16 14:23:38 · 8550 阅读 · 0 评论 -
利用python生成16进制颜色配色
python生成配色原创 2024-03-06 17:28:27 · 387 阅读 · 0 评论 -
基于基因集打分的单细胞自动注释方法
【代码】基于基因集打分的单细胞自动注释方法。原创 2024-03-04 14:41:25 · 379 阅读 · 0 评论 -
xopen 一个高效压缩和解压缩python库碾压gzip
xopen高效压缩解压缩python库,碾压gzip。原创 2024-01-09 15:28:15 · 433 阅读 · 0 评论 -
全外显子统计覆盖度
全外显子统计覆盖度原创 2023-11-03 16:24:37 · 252 阅读 · 0 评论 -
GSEA富集分析结果详解
富集分数:S 反应基因集(比如某个通路内的基因集)成员 s 在排序基因集 L(比如根据 logFC 排序的差异基因集,默认降序,所以上调基因在顶端)的两端富集的程度。正值ES表示基因集 S 在基因集 L 的顶部富集,负值ES表示基因集 S 在基因集 L 的底部富集。第三部分是排序后所有基因 rank 值的分布,热图红色部分对应的基因在 A 组高表达,蓝色部分对应的基因在 B 组高表达,每个基因对应的信噪比(Signal2noise,前面选择的排序值计算方式)以灰色面积图展示。NES:标准化后的富集分数。原创 2023-08-09 11:46:59 · 2417 阅读 · 0 评论 -
R语言读取压缩文件
R语言读取压缩文件常规来说,读取网页中的压缩文件分为两步,以GENCODE数据库的人基因组注释文件为例,首先需要下载:download.file(‘ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_24/gencode.v24.chr_patch_hapl_scaff.annotation.gtf.gz’, dest...原创 2020-04-18 21:18:45 · 10682 阅读 · 0 评论 -
Ka/Ks介绍和分析
在遗传学中,Ka/Ks表示的是两个蛋白编码基因的非同义替换率(Ka)和同义替换率(Ks)之间的比例。这个比例可以判断是否有选择压力作用于这个蛋白质编码基因。如果你手头有两个不同物种的同一个基因的序列,比如人和小鼠的p53基因,然后把这两个基因的序列进行比对,你会发现这两段序列有差异(进化!再仔细观察,你会发现有些碱基的变化导致了编码氨基酸的变化(非同义替换),有些没有导致编码氨基酸的变化(同义替换)。这是由密码子的简并性造成的,因为3个碱基决定1个氨基酸,所以64种碱基组合决定20种氨基酸,会有冗余出现。原创 2023-07-05 16:05:14 · 1968 阅读 · 0 评论 -
进化树+PCA的R定制化绘图参考代码
进化树和PCA原创 2023-06-05 17:21:24 · 178 阅读 · 0 评论 -
利用codon神器10倍提升我的python代码效率
可以看到运行时间为13.530s,相较原生python脚本运行时间2m37.856s,效率提高了10倍以上。我用的centos7.9,如果报gcc编译器版本低,某些参数不支持,可通过执行。第一步:利用codon编译器将我的python脚本编译为可执行文件。通过以上操作即可切换GCC至9.3.1版本。第二步:直接执行该命令。原创 2023-03-23 15:29:37 · 1023 阅读 · 2 评论 -
CentOS7下安装gcc 4.9版本
CentOS下安装gcc 4.9版本gcc-c++不支持C++11及更高版本的新特性,比如std库中的正则表达式,线程等。为了使用这些功能,需要把便一起的版本升级到4.9.x上。按照以下方法,可以顺利升级:[root@VM_0_15_centos ~]# yum install centos-release-scl -y[root@VM_0_15_centos ~]# yum install...转载 2020-03-21 20:07:11 · 3691 阅读 · 0 评论 -
进化树的几种分类详解
进化树的几种分类转载 2022-11-25 14:06:14 · 2908 阅读 · 0 评论 -
细胞器基因组核酸多样性(pi)计算
细胞器基因组核酸多样性(pi)计算原创 2022-11-22 10:01:22 · 3066 阅读 · 2 评论 -
使用R绘制单细胞 细胞比例堆叠柱状图加面积连线(桑基图)
使用R绘制单细胞 细胞比例堆叠柱状图加面积连线(桑基图)原创 2022-09-23 10:32:47 · 2586 阅读 · 0 评论 -
非模式物种ROSE超级增强子鉴定分析详解
非模式物种超级增强子鉴定原创 2022-09-15 15:55:49 · 1649 阅读 · 1 评论 -
shell统计每一行字符数的三种方法
shell按行统计字符数原创 2022-09-14 11:57:48 · 2335 阅读 · 0 评论 -
叶绿体基因做跨物种系统发育分析
叶绿体基因 系统发育 进化树转载 2022-09-13 14:11:12 · 722 阅读 · 0 评论 -
基于单细胞marker gene数据库富集分数的细胞群注释方法
细胞注释原创 2022-09-07 17:51:38 · 583 阅读 · 0 评论 -
基因组dna,sm,rm序列类型说明
基因组版本 dna sm rm原创 2022-08-26 15:04:43 · 1164 阅读 · 0 评论 -
使用Misa结合Primer3来批量设计SSR引物
Misa结合primer3 批量设计SSR引物转载 2022-08-16 10:33:00 · 1263 阅读 · 0 评论 -
使用R包 ggpattern实现柱形图渐变填充
ggpattern实现渐变填充原创 2022-08-03 10:40:26 · 738 阅读 · 0 评论 -
同时设置分面标记位置和 strip.text.y 时角度不生效问题
分面strip.text的角度调整不生效问题原创 2022-07-28 15:05:41 · 299 阅读 · 0 评论 -
R基础函数详解参考卡片
话说基础不牢,地动山摇。打好R基础,从学习R参考卡片开始,卡片虽小,信息量很高。原创 2022-07-28 14:29:42 · 409 阅读 · 0 评论 -
单细胞各种组织的marker gene
单细胞细胞亚群注释转载 2022-07-27 10:55:56 · 3871 阅读 · 0 评论 -
edgeR提供的TMM归一化算法详解
egdeR TMM归一化算法转载 2022-07-13 15:38:24 · 923 阅读 · 0 评论 -
基于SSR数据的群体结构分析和DeltaK值可视化
基于SSR数据的群体结构分析和DeltaK值可视化原创 2022-07-11 16:27:36 · 1679 阅读 · 2 评论 -
R包在Linux下编译不通过 CentOS/Redhat R包使用最新的gcc编译
R切换gcc编译器版本转载 2022-07-01 10:42:25 · 236 阅读 · 0 评论 -
构建植物(棉花)BSgenome 参考基因组
BSgenome原创 2022-06-23 14:03:02 · 802 阅读 · 4 评论 -
基于RNAfold预测RNA的二级结构(命令行版)
RNAfold子程序实质上是封装在ViennaRNA软件包中。从https://www.tbi.univie.ac.at/RNA/#download网站下载ViennaRNA(version1.8.5)源码包,编译安装。安装过程不再细讲。不会的可参照我之前的博客。运行以下命令批量预测和绘制RNA二级结构图/usr/local/bin/RNAfold < test.fa > test.res/usr/local/bin/RNAplot -t 1 -o svg --pre aaa &l原创 2022-04-18 15:59:07 · 6583 阅读 · 7 评论 -
Treemix预测基因流原理和方法
什么是基因流在群体遗传学上,基因流(也称基因迁移)是指从一个物种的一个种群向另一个种群引入新的遗传物质,从而改变群体“基因库”的组成。通过基因交流向群体中引入新的等位基因,是遗传变异一个非常重要的来源,影响群体遗传多样性,产生新的性状组合。基因流会减少种群之间的差异。下图就形象地展示了基因交流的过程。在某个时期某处发生地质事件,形成一座很高的山峰将一群鸟类群体分隔开来,且鸟类无法自由飞越,一段时间后,由于鸟群生活环境发生巨变,造成山脉分割的两个群体羽毛颜色发生改变(一个群体是显性蓝色HH,一个群体是阴性转载 2022-04-13 17:06:58 · 4094 阅读 · 1 评论 -
一文搞懂R(相关系数)与R^2(决定系数)
R与R^2没有关系,就如同标准差与标准误差没有关系一样。相关系数(R)定义:变量之间线性相关的度量。分三种, pearson(有秩),spearman(无秩), kendall。公式:公式解释:自变量X和因变量Y的协方差/标准差的乘积。协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。因此,相关系数是一种特殊的协方差。决定系数(R^2)定义:对模型进行线性回归后,评价原创 2022-04-11 16:17:28 · 34486 阅读 · 0 评论 -
修改Rprofile文件永久配置R环境
Rprofile文件路径位于R安装目录下的etc目录下也可在家目录建立.Rprofile文件更改配置# Things you might want to change# options(papersize="a4")# options(editor="notepad")# options(pager="internal")# set the default help type# options(help_type="text") options(help_type="html")#原创 2022-03-31 09:18:29 · 1286 阅读 · 0 评论 -
使用ascp 高速下载NCBI各种数据库中的数据
ascp 高速下载NCBI各种数据库中的数据(SRA NR NT 分类数据库)NR NT 数据库:#wget -c https://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz#wget -c https://ftp.ncbi.nlm.nih.gov/genbank/livelists/gi2acc_mapping/gi2acc_lmdb.db.gz#wget -c https://ftp.ncbi.nlm.nih.gov/genbank/livelist转载 2022-03-09 12:04:06 · 2820 阅读 · 0 评论 -
在R中删除矩阵中含有0的行
在R中删除矩阵中含有0的行介绍如下三种方法:#方法一:A = sapply(1:nrow(A),function(x) if(all(A[x,])!=0) A[x,])#方法二:x[!as.logical(rowSums(dat==0)), ]#方法三:dat[dat==0] <- NAna.omit(dat)原创 2022-01-23 11:38:35 · 7624 阅读 · 2 评论 -
javascript多个元素列表遍历方法总结
先上下面这段代码:const parent = this.el.parentElementconsole.log(parent.children)parent.children.forEach(child => {console.log(child)})会报错:Uncaught TypeError: parent.children.forEach is not a function解决办法一:const parent = this.el.parentElement;Array.pro原创 2021-12-22 14:58:13 · 827 阅读 · 0 评论 -
ssh / sftp 远程登录出现:RSA host key for *.*.*.* has changed...的解决办法
ssh连接的解决办法:比如主机A和主机B,用户之前在主机A上使用ssh命令登录过主机B,而后主机B被重装但保留了主机B的IP。之后用户在主机A上再ssh继续登录主机B时,就会报这个错误。解决办法是在主机A运行:ssh-keygen -R BHostIP 或 BNodeName还有一个快糙猛的办法,就是直接删除A主机~/.ssh/known_hosts,但这样会丢失之前保存的其他主机信息,不过无伤大雅,就是都得重新加载一下。sftp连接的解决办法:Win 10/8/7/Vista: Star原创 2021-12-20 19:41:39 · 1672 阅读 · 0 评论 -
centos7配置nginx服务+gunicorn+flask web网页
1.安装nginx服务yum -y install nginx启动Nginxservice nginx start 或者 nginx2.配置web网页文件:vi /etc/nginx/nginx.conflocation /:指一个server里面没有其他的路径的时候,默认为/,即都进入到location里面访问,root:location里面返回的页面的路径,即存放首页的路径index:定义首页是哪个页面,上面配置的默认首页为index.html,如果没有找到index.html,原创 2021-11-23 11:26:32 · 307 阅读 · 0 评论 -
cmatrix黑客帝国屏保
Linux下 cmatrix的安装和使用(黑客屏保)1.安装ncurses支持包yum install ncurses* # 安装相关ncurses支持包2.下载屏保软件源码包wget https://jaist.dl.sourceforge.net/project/cmatrix/cmatrix/1.2a/cmatrix-1.2a.tar.gz3.解压缩源码包tar -zxvf cmatrix-1.2a.tar.gz4.进入源码包目录cd cmatrix-1.2a/5.释放编译文件.转载 2021-11-15 08:56:06 · 535 阅读 · 0 评论 -
centos7配置nfs网络文件共享系统
NFS(NetworkFileSystem)即网络文件系统,是Linux/Unix支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。NFS 的基本原则是“容许不同的客户端及服务端通过一组RPC分享相同的文件系统”,它是独立于操作系统,容许不同硬件及操作系统的系统共同进行文件的分享。NFS在文件传送或信息传送过程中依赖于RPC协议。RPC,远程过程调用 (Remote Pr原创 2021-11-02 14:46:27 · 373 阅读 · 0 评论 -
linux 磁盘分区格式化及挂载一条龙
1.磁盘分区fdisk -l # 查看磁盘信息#假设未挂载磁盘为/dev/sdcparted /dev/sdc # 开始分区#交互界面mklabel gpt # mbr分区已淘汰,最大只支持2Tmkpart primary 1 100% # 划分一个主分区align-check optimal 1 #检查分区是否对齐print # 打印分区结果quit # 退去2.格式化磁盘mkfs.xfs -f /dev/sdc # 格式化为xfs(推荐)mkfs -t ext4原创 2021-10-27 09:41:25 · 383 阅读 · 0 评论