自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 python windows环境下批量修改文件的创建时间、访问时间、修改时间

引用:https://blog.csdn.net/dengnihuilaiwpl/article/details/86551720常见的修改文件时间有两种方式:方式一:修改访问和修改时间;使用utime函数方法二:修改创建时间使用pywin32file库以下代码可以实现两种方式,代码参考网络并根据实际情况做修改,完成对指定文件的时间的修改。import osimport os.pathimport datetimefrom win32file import CreateFile,S.

2021-12-08 15:18:34 4348

原创 bwa mem 报错处理:[mem_sam_pe] paired reads have different names

背景:从samtools sort 默认排序后的bam文件中提取fastq序列并对其格式化,对格式化后的fastq文件重新比对到参考基因组,报错如下:”[mem_sam_pe] paired reads have different names: “A00575:297:HWHKYDMXX:1:1331:22372:31814:”, “A00575:297:HWHKYDMXX:2:2167:15004:31297:”原因分析:最开始在网上也查找了很多的提问,有说使用BBtools工具处理,最终看到有

2021-10-26 16:06:08 1991

原创 从分析结果中根据list提取突变信息

# _*_coding:utf-8_*_# author: 稻田工作者# date: 2020-06-13"""根据原始样本对应的突变信息从数据分析文件中提取检出结果,如:原始样本LC-BR3对应的突变信息如下:NM_000245.2:exon14_intron14:c.3028_3028+16del17:p.?NM_005228.3:exon20:c.2290_2291ins12:p.A763_Y764insFQEANM_000245.2:intron13:c.2888-41_2888-.

2020-06-14 09:02:13 754

原创 练习系列:Python字典:一键对应多值

需求:遍历文本文件,生成一键对应多值的字典,如下所示:文本文件内容("\t"分割字符串):“”"A 1A 2A 3B cB dC 4C 5C e“”"目标生成文件格式:target_dict = {“A”:[1,2,3],“B”:[“c”,“d”],“C”:[4,5,“e”]}方法:*dict.has_key(key) :如果键在字典dict里返回true,否则返回false(Python2.x)*dict.setdefault(key, default

2020-06-13 12:43:30 1127

原创 数据可视化--表格融合练习

数据可视化--表格融合练习pd.merge()函数说明代码演练参考书籍pd.merge()函数说明使用共有列作为两个数据框数据融合的依据,主要使用pd.merge()函数:参数说明:left: 传递左表数据right: 传递右表数据how: 数据融合方式left:保留左表的数据right:保留右表的数据inner:保留公共部分的信息outer:保留所有的信息on:列名,共有列left_on:指定左表的某一列用于不同列名合并right_on:指定右表的某一列用于不同列名合并

2020-05-24 11:42:59 399

原创 python进行信息匹配

最近需要根据样本编号比对信息,故写了脚本进行处理,满足日常的匹配需求,初步编写的脚本如下:# —*—coding:utf-8_*_# date: 2020-05-04import xlrdimport csvimport argparse,os,iodef pre_prepration(cur_path,sample_list): sample_list_file = o...

2020-05-05 15:24:09 1016

原创 fastp使用

fastpfastp下载及安装# fastp只依赖于zlib(如果在编译fastp过程中出现“undefined reference to gzbuffer”错误,可更新zlib进行处理)#安装方式一: 下载编译好二进制(仅适用于linux系统)wgethttp://opengene.org/fastp/fastpchmod a+x ./fastp#安装方...

2020-01-18 17:07:31 7458 2

原创 bwa、bowtie2、tophat、hisat2 比对软件学习中的笔记整理

对常用的比对软件学习进行用法整理记录。记录的内容相对简单,详细说明及用法还得参考软件使用说明书bwa、bowtie2、tophat、hisatbwabwa(Burrows-Wheeler Aligner)bwa文档说明http://bio-bwa.sourceforge.net/bwa.shtmlBWA用于将低差异的序列映射到一个大的参考基因组,如人类基因组。由BWA-ba...

2019-12-15 11:06:02 10656

原创 NCBI中assembly_summary.txt文件下载

最近准备下载微生物的参考基因组序列,由于是初入生信,折腾了一段时间,对NCBI中ftp中数据库结构有初步的认识,查看数据库中的一些文档,整理了assembly_summary.txt,taxonomy/文件下载的脚本,用于后续下载对应文件使用。在具体分类的文件中的文件名都是一致(如bacteria,fungi等等),故在下载完成后对文件重新命名,写脚本的目的只为在当前及后续遇到同样的需求能够增加工...

2019-11-29 10:30:42 1822

原创 参考序列中组装级别低得污染序列去除

NCBI数据库中存放着大量得WGS测序数据,随着二代测序得发展,测序成本得降低以及各种微生物组计划得实施,越来越多得测序数据得以存储,各种组装级别得参考基因组(complete genome, chromosome, scaffold, contigs)提交在数据库中。 mNGS在病原微生物方向的发展,对病原微生物的鉴定依赖这些参考序列,但由于一些物种只有组装级别较低的...

2019-11-23 09:50:55 1328 2

原创 从excel文件读取数据写入csv文件笔记记录

在之前使用的几个版本的脚本中,发现由于读取的数据和index信息不一致导致写入的结果变少,故增加判断,在生成文件过程中方便直接发现异常,并进行调整输入的文件信息。此版本是在之前的只做了修改,未进行优化:后续优化:txt文本可用pandas模块读取本次的异常判断可用try except后续再进行优化#_*_coding:UTF-8_*_import xlrdimport csvi...

2019-10-03 11:22:06 643 1

原创 练习_对fastq文件进行读写

练习_对fastq文件进行读写利用python脚本对fastq文件进行处理首先读取fastq文件,由于该文件为压缩的二进制文件,调用gzip模块打开其次,根据fastq文件格式特点,对文件进行分离处理,第一行为序列id信息,紧接着的三行与第一行为对应关系,即采用字典的键值对应定义函数,对fastq文件进行读写后续增加文件处理函数,并进行调整import gzip# 定义函数读取...

2019-09-01 13:40:03 2707

原创 练习--01--对fastq文件进行序列长度统计并绘图

主要实现对fastq文件中不同长度序列进行统计并绘制简单的直方图详细可见代码说明及注释#_*_coding:UTF-8_*_"""对fastq文件中的序列进行处理1.获取序列的id和序列信息2.统计每个id对应的序列的长度3.对序列长度进行统计"""import osimport pandas as pdfrom collections import Counterimpo...

2019-08-02 13:49:37 2876 1

原创 统计fasta文件中序列的长度并绘制直方图

"""对fa文件中的序列进行处理# 获取序列的id和序列信息# 统计每个id对应的序列的长度# 对序列长度进行统计# 绘制直方图"""import osimport pandas as pdfrom collections import Counterimport matplotlib.pyplot as pltimport sysdef read_seq(file_pat...

2019-07-30 18:45:23 2912 1

原创 01_使用Python对Excel文件中的数据进行匹配操作

我的第一次工作上实现Python代码堆积生物行业一名普通的实验搬砖者,半路出家学习Python……0. 为什么会写这个脚本目前所做的项目对数据整理需求比较大,数据内容多,序列的不唯一性导致工作量的加大,故想着通过脚本实现简单化工作,开始我的代码堆积……1. 如何实现—确认思路a.读取源文件和目标文件的数据并做些简单的统计(row或col)b.读取源文件和目标文件中可用作判断的数据进行遍...

2019-05-12 08:29:25 6242

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除