自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 NCBI blast物种注释

的nr或者nt数据库,在构建数据库时可以添加物种注释信息。如果建库时未添加,也可以后续通过taxonkit进行注释。这里以nt数据库的blast的XML格式结果为例,对注释的词条进行物种注释。

2024-08-30 00:37:47 428 1

原创 【客户福利】获取ASprofile的hdrs文件

ASprofile 是分析可变剪切的软件之一,软件分析需要一个hdrs文件。该软件自带了hg19的hdrs,但是其它版本或者物种的hdrs文件需要自己获取,但软件并未提供该功能脚本。网上找到过一个公开的Python脚本,但是它统计的结果有问题,没办法,自己写了。大家如果也找到了那个脚本,注意验证结果可靠性。本文分享自己写的perl脚本用法。该脚本不公开,有需要的客户付费达到一定金额后可免费获取。如果仅需要其它基因组版本或着其它物种的hdrs文件,可以付费获取相应的hdrs文件。

2024-07-07 20:17:43 230

原创 eval与bash -c 的区别与联系

eval和bash -c都可以用来在 Linux shell 脚本中执行命令字符串,但它们在使用方式和应用场景上有所不同。eval。

2024-07-07 20:15:06 361

原创 【客户福利】本地读取GEO探针表达数据和芯片注释

其实,从报了培训班之后还没做过GEO数据挖掘。大家注意后面代码的可靠性。常用的GEO数据下载和读取依赖,当我们指定选项GEO编号时,其实质还是从要先下载表达矩阵文件和探针注释(getGPL = T)文件到本地,然后再读取。我个人是不太喜欢getGEO这个函数风格的。对于R语言下载文件的可靠性,我觉得不咋滴,也可能是我写不好代码。我个人是封了个脚本,专门用于下载GEO数据库文件,该脚本不公开,仅作为客户福利,当客户付费分析金额达到一定额度后才可免费获取。这个脚本的使用方法之前分享过一次,这里再次分享下。

2024-07-07 20:13:53 461

原创 利用linux中awk从gtf文件中提取外显子的bed文件

0 为第1个碱基,100表示第101个碱基,但是不包含第101个碱基,因此这个写法表示位置1到100。其中,feature起始与结束为左闭右开区间,即表示第1到第100个碱基可以理解为数学上的区间。由于bed文件起始位置要从0开始,与gtf文件不同,所以在打印时起始位点要减去1,即。即为将基因ID,转录本ID和exon number拼接在了一起,以保留更多内容。这里将基因ID ,转录本ID和exon编号做一些处理,在后续。利用awk从gtf文件中提取exon的bed文件。这里时可以直接进行减法运算的。

2024-06-03 00:23:54 245

原创 利用linux中sed给染色体编号加前缀chr

在做生信分析的时候,很多情况下我个人倾向于从ENSEMBL下载基因组,但是这个数据库的染色体编号为数字,而一些f分析软件会要求chr前缀。这里演示下如何进行给gtf文件和基因组添加chr前缀。查看gtf染色体前缀。查看基因组染色体前缀。

2024-06-03 00:15:34 268

原创 28.2 Gb基因组SSR序列知多少:Misa+Primer3流程

前两天帮人下载了28.2Gb的蝾螈基因组,这么大的基因组,还是第一次近距离接触。由于之前我优化了下流程脚本,使之可以耗费较小的服务器资源用于分析核心基因组SSR并设计引物。目前为止,我接过的付费分析中还没有超过3Gb的基因组,因此,萌生了对蝾螈基因组分析SSR并设计引物的想法。就现在网上公开的脚本和修改方法,并不能直接完美将流程应用于核心基因组的分析。如果你有需要分析的,可以直接联系我做付费分析。

2024-06-01 23:46:46 371

原创 UCSC工具:fastqStatsAndSubsample Fastq质量统计与抽样

用途:主要用于统计fastq整体统计和抽样。包含的结果:reads数,碱基数,随机抽样的reads数和碱基数,碱基长度的平均值、标准差(std)、最小值和最大值,碱基质量的平均值、标准差(std)、最小值和最大值,质量类型,atcgn碱基总体所占比例,每个位置碱基的平均质量,每个位置atcgn碱基的比例。绘常规质控图:可绘制每个位置各种碱基比例折线图。缺点:缺少Q10,Q20,Q30和Q40的统计结果。

2024-02-15 09:34:11 444

原创 linux 图像格式转换: pdf转png格式

试了下R将pdf矢量图转换为png位图,不如linux下convert方便好用。

2024-02-15 09:30:59 594

原创 FPKM转TPM脚本分享:当Shell脚本嵌入R代码

当然,我之前写过一个R脚本模板,可以只依赖基础函数也允许使用长选项设定参数,也可以设定缺省值,详见《等工具来设定选项和缺省值,这些工具在常用系统环境中是默认配置,因此使得脚本更加灵活【下面脚本并未这样写,大家可以自己改写】。输入文件:FPKM表达矩阵,行名为基因,列名为样本名称,值为FPKM。我个人的看法是,还是有一点用处的。当Shell脚本中嵌入R代码,这到底是R脚本,还是shell脚本呢?shell中写R代码的一些细节,了解的还不够详细,需要多写多练。格式,因为是特定情境下的脚本,所以卡的比较严格。

2024-02-15 09:29:45 425

原创 linux解压zip格式的新姿势

周六接到一个小项目,客户把4例样本的clean数据放到一个名为clean.zip的文件中。客户是通过百度网盘给的数据。由于客户比较着急要数据,所以直接使用bypy把clean.zip下载到远程服务器上。查看文件【前提是已经配置好bypy。配置过程自行搜索】下载文件一般来说解压zip格式,可能会直接使用unzip。

2024-01-22 00:54:24 379

原创 无 if else的shell脚本下载公共测序数据

shell脚本,不一定要写if else。可以通过运算符||与&&管理命令, 我的理解是通过命令返回状态来决定运行哪个/块命令。我们最常见的例子是。更加复杂的例子是运算符||和&&配合{}或()写。不要觉得没必要,这可能是你工作以后shell脚本常态。今天以利用Aspera从ENA数据库下载测序数据为例进行简单举例。下面给个稍微简单点的一个示例命令。

2023-12-17 00:21:13 394

原创 提取基因上游1500bp序列

利用bed格式文件从基因组中提取上游侧翼序列。

2023-12-13 11:32:25 542

原创 跟着Github学Mfuzz

前几天学习Mfuzz时在github搜到一个脚本这是一个2016年的脚本,注意这个时间比较早,因此用到的方法或者软件也比较老,需要注意。这个脚本来还是找来测试数据跑了下。这里记录下这个脚本的特点,以及我测试时的脚本,希望可以对大家脚本封装和Mfuzz学习提供一点点帮助。

2023-12-11 00:49:17 589

原创 【纯代码分享】有技术重复的11样本的10X单细胞上游

数据是来自的项目。一个小鼠心脏损伤的10X genomics 单细胞测序数据。一共27组测序结果,81个fastq文件。

2023-12-08 01:14:55 970 2

原创 Mfuzz::mfuzz.plot2 绘图过程梳理

要想用ggplot2重绘结果,就要理解图形中每个部分的含义。

2023-12-08 01:12:52 1419

原创 R编程反面教材:1646992行的gff文件处理了6小时

一开始是用R写的代码,写代码10分钟,运行6小时。后来嫌弃太慢,花40分钟写了个perl版本代码,然后4秒钟解决了。行,这里是尝试用R按行处理的数据,还使用了for循环。今天带大家看下我写的反面教材R代码(改进思路见小结部分,有兴趣的可以找一个模式生物验证下自己的思路和代码是否正确。固然是慢,花了6小时,但是同样的处理思路移植到perl语言中,只花了4秒!这也只是我的思路而已,并不是唯一的。当然了,对于科研上的数据处理,这种处理时间要求一般不是很严格的,能解决问题即可。”,对于R语言来说,

2023-10-29 23:57:54 120

原创 R语言动态创建压缩文件

动态创建压缩文件,可以简单地理解为将结果写出到压缩文件,而不是先写出到文件然后压缩。R语言中,R包vroom就可以实现这一过程。逐行写出函数与数据表写出函数,可以通过的方式实现动态创建压缩文件。生物信息中常见的压缩格式为.gz压缩,这里以拟南芥的基因组序列进行测试。

2023-10-10 12:08:36 136

原创 shell脚本 | 批量从GenBank/RefSeq下载NCBI基因组

今天有客户联系要通过GenBank的accession number批量下载基因组,结果回复客户可以批量下载后,客户就没再回复过。。。这个功能之前就想写,只是觉得用的可能不是很多,就没写。既然今天遇到了,恰巧最近着重学shell脚本,就把这个功能封了个shell脚本。用到的shell知识点都还算基础,也是必学的,下面介绍了脚本的特点和功能,感兴趣脚本写法的也可以购买来看看。

2023-10-09 20:54:23 700

原创 【R语言封装技巧】ggplot2的aes()中的变量替换

【R语言封装技巧】ggplot2的aes()中的变量替换

2023-10-08 22:31:47 176

原创 【纯代码分享】Salmon基于GRCh38的转录本与基因水平的定量

【纯代码分享】Salmon基于GRCh38的转录本与基因水平的定量

2023-10-08 22:27:14 230

原创 Y叔的enrichplot画图是如何将y轴text文本换行的

我们在使用Y叔的包做过富集分析之后,然后使用enrichplot绘制dotplot与barplot时,y轴的部分可以换行了(从哪一版开始的我不记得)。如下图:那么是如何实现的呢?其实可用两种方法实现这种换行。一种方法是Y叔的函数。另一种方法是哈德利的测试用enrichplot版本string 字符串width 字符最大长度,Y叔在绘制富集结果时是又包装过的str_wrap(),数值写明width = 30。我目前没找到修改Y叔该参数的方法该函数换行处仅为空格。

2023-10-04 21:21:14 230

原创 测序数据sff文件转为fastq数据工具:sff2fastq和sff_extract

记录下两个将测序数据从sff格式转为fastq格式的工具`sff2fastq`和`sff_extract`

2023-10-04 21:13:25 292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除