自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 VScode连接VMware虚拟机——连接失败

之前一些教程连接之后发现,还是连接不成功,个人认为是ip的问题。后面发现要把虚拟机的ssh打开查询虚拟机ip用户名@ubuntu:~$ ifconfigens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.152.128 netmask 255.255.255.0 broadcast 192.168.152.255 inet6 fe80::f5e9:94e6:66

2021-11-02 10:02:07 3268 2

原创 deSALT——index小bug[错误]*** buffer overflow detected ***: deSALT terminated Aborted

直接使用deSALT建立索引的小bug错误描述:在这里插入代码片*** buffer overflow detected ***: deSALT terminatedAborted一直没有去读deSALT的论文,临近开题前夕想要测试一下这个工具,结果上来索引第一步就卡住了,自身对于Linux下写C经验较少,又不太懂,最后都没有测试这个工具。今天终于index成功了。但是在比对阶段也有个问题,等我解决了后续再更新。一开始以为是我的文件名太长的问题或者路径名问题,改来改去还是有问题,崩溃==而且,

2020-12-31 17:41:06 389

原创 Evaluation of tools for long read RNA-seq splice-aware alignment论文详解

Krešimir Križanović, Amina Echchiki, Julien Roux, Mile Šikić, Evaluation of tools for long read RNA-seq splice-aware alignment, Bioinformatics, Volume 34, Issue 5, 01 March 2018, Pages 748–754, https://doi.org/10.1093/bioinformatics/btx668评估用于长度短RNA-seq.

2020-11-09 08:52:17 609 1

原创 minimap2论文算法详解(主要针对RNA-seq)

Heng Li, Minimap2: pairwise alignment for nucleotide sequences,Bioinformatics, Volume 34, Issue 18, 15 September 2018, Pages 3094–3100, https://doi.org/10.1093/bioinformatics/bty191Minimap2:pairwise alignment for nucleotide sequences前言1. 引言2. 方法2.1 计算mi.

2020-11-06 15:46:59 5766 9

原创 用Python比较两个csv文件的ID,将查找到的ID信息提取出来

需要将ID.csv的蛋白质从name_or.csv中找到,并补充name和organism信息,最后写入了seq_sim_all.csv中ID.csvname_or.csvseq_sim.all.csvimport csvf = open('seq_sim_all.csv', 'w', encoding = 'utf-8', newline='')csv_writer = csv.writer(f)csv_writer.writerow(['Database ID', 'Name', '

2020-06-24 21:10:58 1765

原创 用Python按照规则写入csv文件

读取txt文件,将每一个簇按照ID互相组合,写入csv文件。这是为了记录每一个蛋白和哪些蛋白具有100%的相似性,是一个全排列的问题。import csvf = open('seq_sim.csv', 'w', encoding = 'utf-8',newline='') csv_writer = csv.writer(f)csv_writer.writerow(['100% Identity Protein ID', 'Database ID', 'Name', 'Organism'])wi

2020-06-24 21:03:26 217

原创 用Python取出两个特殊字符中间的字符串

我们要使用ID建表,需要取出100%的ID,ID前为’_’,后为‘.’。ID即为图中1275和1655cd2.txtcd3.txtwith open('cd2.txt', 'r') as f: lines = f.readlines()with open('cd3.txt', 'w') as f_w: for i in range(len(lines) - 1): if(lines[i][0] == '>'): f_w.write(

2020-06-24 20:22:04 5028 1

原创 使用Python删除具有某些特征的几行数据

进行数据整理时所写的脚本,使用CD-HIT去冗余,设置阈值为100%,将有多条的簇留下来。cd1.txt:从上图中找出找出100%的簇,放到cd2.txt中cd2.txtwith open('cd1.txt', 'r') as f: lines = f.readlines()#按行读取文件with open('cd2.txt', 'w') as f_w: for i in range(len(lines)): if(lines[i][0] == '0' and

2020-06-24 20:05:46 1148

原创 Jupyter使用Python3 错误:ImportError: DLL load failed while importing error: 找不到指定的模块。

【可以解决但是还是不太懂】使用pip安装Jupyter notebook之后,默认支持Python2,在其基础上安装基于python3的内核即可。安装完成之后,使用Python3的时候出现错误:ImportError: DLL load failed while importing error: 找不到指定的模块。并且服务器一直启动不起来,一直正在连接最后就崩了。查找教程有些说将路径添加到path里,但是我用conda装的,已经添加进去了,感觉也没什么问题,而且第一次成功使用了。最后发现使

2020-06-10 16:31:44 7045 7

原创 JAVA length何时有括号

写LeetCode的时候,按照官方解答思路,自己写的时候,我全部写成了length(),编译出错了,就发现,length有时候用括号,有时候不用括号,因此记录一下。length():String类的一个方法字符串.length()length() 方法用于返回字符串的长度。长度等于字符串中 16 位 Unicode 代码单元的数量。length:类的属性数组.length附上例子体会一下:class Solution { public String longestComm

2020-06-09 11:28:23 3446 5

原创 使用Perl读取excel文件,并导入mysql数据库

使用Perl读取excel文件,这里只限于.xls文件,新的.xlsx有新的方法。PERL的Spreadsheet::ParseExcel模块支持Excel的读操作:在命令行下输入:cpan Spreadsheet::ParseExcel,即可自动安装;安装后,使用perldoc Spreadsheet::ParseExcel检查安装是否成功。#!/usr/bin/perl -w use warnings;use strict;use Spreadsheet::ParseExcel;u

2020-06-05 14:21:59 477

原创 Perl读取excel插入mysql数据库错误 DBD::mysql::st execute failed: You have an error in your SQL syntax

使用Perl读取excel(.xls)文件,然后导入数据库,一直出现如下问题,用短的测试也没有问题,苦恼了一天==,根据错误提示把提示的某些项删掉测试,发现只要有Function就一条都插入不进来,单独update它也不行,试来试去最后发现,这原来是SQL里的一个函数,是个关键字,所以不能用语句对其进行插入。错误描述:DBD::mysql::st execute failed: You have an error in your SQL syntax; check the manual that cor

2020-06-04 18:04:11 837

原创 北京大学生物信息学-第五周-新一代测序(NGS) 回帖 BWT算法

新一代测序Read: A short DNA fragment which is read out by sequencer.读:由测序仪读出的短DNA片段。DNA序列+质量信息->FASTAQ序列回帖和变异鉴定Reads Mapping:将测序得到的DNA片段也就是Reads定位在基因组上,往往作为深度测序的第一步,其好坏快慢都会对后续操作产生影响。本质上还是双序列比对问题,与经典的双序列比对里有很大的不同。长度数据量数据质量:reads质量参差不齐地位不同:read嵌入其

2020-05-27 19:29:53 1291

原创 Perl笔记-#!/usr/bin/perl和单引号(``)

#!/usr/bin/perl :perl安装路径。(``):反引号来调用一个外部命令(反引号的按键在全尺寸的美式键盘上数字键1的左边。不要把反引号和单引号搞混)。

2020-05-22 17:05:52 452

原创 Perl笔记-use strict编译指令

所谓编译指令是提供给编译器的某些指示,告诉它如何处理接下来的代码。user strict编译指令是要告诉Perl内部的编译器接下来(代码块或是程序源文件中)的代码应该稍加严谨一点,遵循一些优良的编程风格。——《Perl 语言入门》...

2020-05-22 16:32:32 283

原创 blast常见错误|[blastpgp] WARNING: Unable to open BLOSUM62

解决方法:将BLOSUM62文件放到当前工作目录下

2020-05-22 09:14:44 908

原创 北京大学生物信息学-第四周-马尔可夫 HMM及其应用

从状态到马尔可夫链A Markov chain describes a discrete stochastic process at successive times. The transitions from one state to any of all states, including itself, are governed by a probability distribution.马尔可夫链用来描述一组离散状态之间在不同时刻的转移关系。这里的转移关系不需要是唯一确定的,只需要可以由一个概

2020-05-20 21:07:42 3080

原创 北京大学生物信息学-第三周-序列数据库 BLAST

序列数据库Genbank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。BLAST算法初

2020-05-18 11:05:46 1612

原创 北京大学生物信息学-第二周-序列比对

序列比对中的基本概念B iology– What is the biological question or problem?D ata– What is the input data?– What other supportive data can be used?M odel– How is the problem formulated computationally?– Or, what’s the data model?A lgorithm– What is the compu

2020-05-18 08:50:45 1157

原创 北京大学生物信息学笔记-第一周-生物信息学概述

什么生物信息学?[1] 基因组:生命手册[2] 人类基因组有31亿碱基对[3] 碱基编码基因占~2.9%[4] ~97%的基因以前被称为是"垃圾“[5] 他们包含编码指令的调节元素——什么时候,在哪里,制造多少蛋白质Bioinformatics: an interdisciplinary field that develops and applies computer and computational technologies to study biomedical questions生物信

2020-05-17 17:02:36 607

原创 贝叶斯分类器讲解+实例

贝叶斯定理贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有 N 个白球,M 个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事...

2019-12-30 14:48:57 5511

原创 FP增长算法

FP-growth算法简介FP-growth算法是在2000年提出的频繁项集挖掘算法,前面我们介绍了Apriori挖掘频繁项集并且进行关联分析,FP-growth和Apriori选择频繁项集有类似地地方,但是本质和Apriori完全不一样。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法的速...

2019-12-30 13:54:12 2811

BLOSUM62文件

POSSUM62文件--蛋白质序列打分矩阵文件。BLOSUM打分矩阵是一种在生物信息学中用于序列对比的氨基酸替换打分矩阵。BLOSUM 是“blocks substitution matrix”的缩写。它是目前常用的一种氨基酸替换打分矩阵。BLOSUM打分矩阵最早由 Steven Henikoff. 和 J.G Henikoff在他们的论文中被提出。其中,他们从BLOCKS数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。他们继续使用对数胜算来计算矩阵中的分值。与PAM打分矩阵相比,BLOSUM打分矩阵的内容皆由观察得出。[1]在实际运用中,BLOSUM矩阵通常能获得更好的结果。

2020-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除