- 博客(127)
- 收藏
- 关注
原创 通过基因ID从GFF文件中获取基因位置
如果对整个数据的查看,就会发现位置不是唯一性的,里面很多同一个位置对应好几个MIM number或者好几个Entrez Gene ID,可能是这个位置太长了,里面对应的基因太多,所以如果我们简单的进行位置转化,在注释的时候,根据位置匹配,就会出现多个基因,最好的是根据OMIM数据库给的提示操作,把对应的位置范围缩小,才能更精准)由于OMIM上的位置是参考基因组GRch38,所以在进行hg19版本的annovar注释时,需要转化为hg19的,根据OMIM数据库上的提示,我们可以从gff文件中获取对应的位置。
2023-10-11 09:04:42 1984
原创 linux scp不借用第三方工具不输入密码
需求是:在A服务器运行scp传输脚本,批量下载B服务器的数据到A服务器,就需要在B服务器进行以下操作:1.进入当前用户根目录下的隐藏目录 .ssh,命令如下:cd ~/.ssh2.生成服务器的私钥和公钥:ssh-keygen -t rsa3.根据提醒输入回车,下一步:ssh-add id_rsa系统如果提示:Identity added: id_rsa (id_rsa) 就表明加载成功了下面有几个异常情况处理:–如果系统提示:could not open a conne
2021-12-13 14:08:56 545
原创 biopython 根据关键词在NCBI上查找文献
Biopython是python的一个库,帮助生物学家解决感兴趣的事情。功能很多,比如:处理序列,解析序列文件格式(FASTA,GENEBANK),连接生物学数据库(NCBI,ExPASY,SCOP)。如:我们想在NCBI的PubMed数据库中查找与epilepsy相关的文章,然后输出title,author,source这些信息,这些对于在报告中显示参考文献时,很有必要。不用biopytho...
2021-06-26 11:33:40 1058
原创 shell 统计大文件中某列每个字符出现的字数
对于几百万条记录的文件,用python处理起来会慢很多,这时候可以结合awk grep 等使用需求:获取2020001082.snp_indel.hg19_multianno.pro.txt 文件中第十列中每次字符的个数#!/bin/bash#for i in `cut -f 10 2020001082.snp_indel.hg19_multianno.pro.txt|sort |uniq -d # 这句总是报告代码最后一行的下面一行Syntax error: EOF in backquot
2020-11-06 11:52:43 539
原创 python pip 安装模块时的问题
python在windows上安装模块时,常用pip install packages.name或者是.whl文件 pip installC:\Python27\Scripts\pywin32-223-cp27-cp27m-win32.whl,cp 表示python2.7在https://pypi.org/project/pywin32/223/#files里面,有两个2.7可以安装的,但是如果选择pywin32-223-cp27-cp27m-win_amd64.whl会报错,识别不...
2020-08-19 11:29:00 278
原创 使用pandas读取excel时遇到的某整数列读出浮点数
平时最喜欢用pandas 读取excel,最近工作时遇到对于某列整数列的表格,总是把整数读出了浮点数,后面加个.0,但其实我不需要变为浮点数。原因是:我这一列整数是由函数vlookup查找来的,没有查找到的是NA办法是:把NA替换为-,就可以了...
2020-08-19 09:34:53 3064
原创 下载cosmic数据库以及转换为annovar可识别的格式
COSMIC作为肿瘤常使用的数据库,和OMIM,HGMD遗传数据库一起,可以进行区分体细胞突变和胚系突变(来源于《高通量测序技术 李金明主编》第五章 数据库里的P146),所以这些数据库的本地化就很重要了。1.下载COSMIC数据库,进入主页,点击data下的download,找到要下载的文件点击下载(直接下载失败,用脚本下载)。2.脚本下载时按照网页上的步骤操作,由于设置密码时不知道后期会有这种要求,就在密码中加入了感叹号!,导致提示!:event not found,这时候把 echo "ema
2020-06-28 17:33:16 4972 4
原创 用python写的一些小应用
1.根据一个表格是基因,一个工作簿里不同的癌种基因信息放在不同的表格中,要查找表1的每个基因在工作簿里的哪些癌种中存在#!/usr/bin/env python# encoding=utf-8# 目的是根据基因在另一个工作簿中各个表格匹配癌种import pandas as pdimport sysreload(sys)sys.setdefaultencoding('utf-8')df = pd.ExcelFile('../allgene.xlsx')keylist=[]val
2020-06-17 14:43:26 573
原创 利用数据库进行肿瘤基因的挖掘
查找肿瘤靶药预后风险相关基因位点,在没有找到相关的肿瘤panel的情况下,可以去cBioportal这个数据库去根据肿瘤类型查找频率很高的基因,然后把鼠标放在某个基因上,就会看到图一提示:进入OncoKB Cancer Gene List,看到图二界面 :对于每个基因都进行了分类(癌基因还是易感基因),权威数据库是否收录。不需要注册,基因列表可以下载的,搜索某个基因进入后,就会看到每个基因上位点的变异,证据级别以及药物情况。在cbioportal数据库里也可以查找某个癌症里基因里的位点.
2020-06-16 15:20:08 1777 1
原创 把PGM仪器上两次数据进行合并后再跑variantCaller的流程
因为一个样本做了两次,两次的深度都不是很大,需要把两次的数据bam文件进行合并后再运行流程,这时候拿到合并的数据后肯定不能在网页端进行插件运行了,需要自己把数据拷贝到仪器的服务器,运用相应的软件以及脚本进行运行了。1.分别合并两次的ubam,bam文件#常规做法samtools merge total.bam input1.bam input2.bamjava -jar picard.jar MergeSamFiles I=input1.bam I=input2.bam2. 合并好后就放.
2020-06-10 15:08:12 567
原创 利用Biopython 快速根据pmid 来下载参考文献信息
之前用的常规爬虫思路(import requests,from bs4 import BeautifulSoup)来下载文章题目,作者,来源等信息时,偶尔会出现各种问题,有那个调试的时间,就自己根据biopython快速写了一个脚本,简单好用。# !bin/python# encoding:utf-8from Bio import Entrezfrom Bio import MedlineEntrez.email = 'xxxx@qq.com'ref = open('ref.txt..
2020-06-09 10:23:50 1845 1
原创 本地快速安装mysql数据库以及navicat连接mysql数据库
在做系统时首先要有数据库,常见的是mysql,快速安装如下:1.下载xampp以及mysql等其它软件2.打开连接后下载xampp软件,xampp是一个集成开发环境,里面自带mysql3.下载成功后,双击下载下来的exe文件注意:在安装下载前,必须完全卸载电脑里所有的mysql软件,不能就会安装不上,一定要到电脑软件卸载里面去看下是否安装mysql,不要以为没有,就不去卸载。(很关键)4.后面就是一直next,用此方法安装的mysql用户名是root,密码是空。5.用navicat连
2020-05-30 10:38:15 377
原创 利用python生成二维码 以及批量生成二维码
常见的两种简单生成二维码方法,目测均是很好用的1.MyQR 要求是python3 ,并且二维码上的内容不支持中文#1.生成普通二维码#在程序中导入MyQR包下的模板myqr,其中word参数接收一个字符串作为二维码的内容。from MyQR import myqrmyqr.run(words='https://www.cnblogs.com/Estate-47/p/9661543.html')#2.生成带图片的二维码 图片要和代码保持同一路径 myqr.run(words='...
2020-05-11 09:46:30 1607
原创 java 字符串基础操作
1.“==”本身是进行数值比较的,而如果在对象之中进行比较,常进行的是对象内存地址的数值比较,而没有进行内容的比较,如果要进行内容的比较,而需要使用String类中的一个方法 内容比较:public boolean equals(Sring str);eg: String str1 ="hello"; String str2 =new String("hell...
2020-04-28 10:43:22 200
原创 学习笔记(01):Java面向对象编程(高手养成记)-String类对象的两种实例化方式
Java学习视频教程,该课程主要讲解JavaSE的发展历史,JDK开发环境的搭建,java api、JDK、面向对象编程、多线程、IO、类集、网络、数据库编程。
2020-04-27 17:13:31 235 1
原创 django基础课程-2
安装了所需要的软件,熟悉了一些基本命令,就可是进行实战操作,总会遇到一些问题,如下:一 .根据视频操作,执行django-admin.py startproject hello_django(命名为hello-django,会提示CommandError: 'hello-django' is not a valid project name. Please use only numbers, ...
2020-04-07 15:08:47 305
原创 django基础课程-1
django所用的软件安装步骤列出需要安装的包:pip freeze1.python(目前是3X)2.更新pip (非必须)python -m pip install --upgrade pip3.安装虚拟环境 pip install virtualenv==15.0.1(可以不加版本)4.创建虚拟环境 vitualenv django_back_env5.使用虚拟环境 ...
2020-04-07 14:41:44 186
原创 notepad++ 正则表达式的简单应用
1.对于日常需要把如下一列数据转换为'A','B','C','D'的方法为:在正则表达式的循环查找模式下,输入查找目标为([\w\W]+?)\r\n ,替换为 '\1',ABCD2.对于ACE,ADA,BAX,CAPS转换为如下模式,输入查找目标为([\w\W]+?)\,,替换为\1\r\n 。1表示找到的目标ACEADABAXCAPS...
2020-03-25 09:29:58 240
原创 R-一些小技巧
library() install.packages()ls() list.files()rm(list=ls(all=TRUE))Esc中断当前命令的执行 tab 补全Ctrl+L清楚当前屏幕 Ctrl+up弹出历史命令框getwd() setwd()head() tail()?function()help(function)a...
2020-03-12 12:54:35 214
原创 perl 小练习
1.以scaffold.fasta作为输入文件,计算GC含量以及N50和N902.根据给定的基因组scaffold.fasta文件和相对用的基因注释gff文件提取基因的cds区域,并以每行60个碱基的格式输出到cds.fasta文件中3.以cds.fasta作为输出文件,将其翻译成蛋白质序列并以每行60个氨基酸的格式输出到pep.fasta文件...
2020-03-12 10:14:38 1020
原创 perl -常用正则表达式笔记
① 替换 :s$string = ~s/<pattern>/<replacement>/; #返回值为替换次数s/ / /i; #不区分大小写s/ / /g; #全局替换s# # #g; #可以用其他界定符代替“/”my $str = 'My heart will go on,';$str = ~s/go/went/; #将go替换成went...
2020-03-12 09:49:37 469
原创 在vim 编辑器中进行文件内容的复制
在vim 模式对文件中的内容进行复制,除了常规的复制粘贴外,其实还可以进行命令操作,简单快捷 如:1.vim name.txt # 进入name文件2 假如内容只有11行,在insert 模式下,可以往下添加行号,然后按Esc键退出3.shift+: 模式后,要复制的第一行号 ,复制的最后一行号 co 要存放复制内容的行号(一般这行会空,在下一行复制)。:4,6 co 12 ...
2020-03-12 09:25:07 1775
原创 perl学习笔记 - 输入与输出
钻石操作符 <> :从用户指定的位置读取输入(一般用于读取用户的输入文件)注意:1,<>会处理所有的输入,直到所有输入的结尾为止一般在一个程序中只有一个<>,若出现多次则可能发生错误。2,调用参数@ARGV @ARGV 是一个装着调用参数的数组标准输入输出1,读取从键盘输入的值 <STDIN>注意 :<STDIN...
2020-03-11 17:21:37 450
原创 通过哈希的键来去掉数组中的重复值
通过哈希键不存在重复值的属性,可以去掉数组中的重复值#!/usr/bin/perl use strict;my %hash = ();my @array = (2,3,4,6,89,56,35,38,4,6,89);foreach my $e (@array){ $hash{$e} +=1; }my @keys = keys %hash;foreach my $k...
2020-03-11 13:57:54 313
原创 python做方差分析
方差分析可以用来推断一个或多个因素在其状态变化时,其因素水平或交互作用是否会对实验指标产生显著影响。主要分为单因素方差分析、多因素无重复方差分析和多因素重复方差分析。做方差分析首先必须满足独立,正态检验,方差齐性检验。如果是重复测量方差分析,则必须满足正态检验,方差齐性检验,以及球形检验。之前一直使用的是SPSS,其实也可以用python或者R做方差分析python主要用到的库是...
2020-02-06 10:32:09 4642
原创 在window下写linux命令
在window系统下,用编辑器写shell脚本时会遇到的问题:当你的命令在终端运行没有问题,放入xx.sh文件时,会报错,比如找不到文件,或者是提示command '\r'等类似的错误提示语时,均要考虑编码问题。可以在.sh文件中输入:set ff=unix:wq即可。如对文件中每一行进行操作的脚本#bashcat BRCA1_2.designed.bed|whi...
2020-02-05 10:57:31 344
原创 对annovar注释的总结
新的一年到了,到了该更新数据库的时候了,首先就从常用的annovar软件以及所使用的数据库开始更新吧。1.下载最新版的annovar软件,annovar.latest版本,需要一个edu的邮箱。2.下载注释所用的数据库,官网上太多,可以根据需要自行下载,比如下载hg19版本的, clinvar数据库更新到20190305版本了,但是NCBI数据库已经更新到20191223了,可以自己下载后...
2020-01-20 17:32:23 7086 3
转载 python编码问题
相关知识1.字节(Byte):计算机中数据存储的基本单位,一个字节是8位.计算机上所有的数据都是由字节组成的2.字符:字符是一个信息单位,是各种文字和符号的统称.(一个英文字母,一个汉字都是一个字符)3.字符集(Characterset):是某个范围内字符的集合,不同的字符集规定了字符的个数.如:ASCII,GB23124.字符码:字符集中每个字符的数字编号5.字符编码(cha...
2019-11-21 17:15:24 198
原创 王金发版的《细胞生物学》笔记链接
好久没更新了,附上自己这段时间的劳动成果之一 王金发版的王金发版的《细胞生物学》笔记幕布链接这是第一次使用幕布作为读书笔记,可能不是很美观,对书本内容也只是进行了简洁的汇总。细胞概述 :https://mubu.com/doc/d7FOUoE1n0细胞质膜与跨膜运输:https://mubu.com/doc/d8nhgTczL0细胞环境与互作 :https://mubu.com/...
2019-09-12 11:52:57 1261
原创 预测疾病风险参考文章
对于把测序的数据真正的落实到每个人身上,除了能够有意义的分析致病原因,更多的是对疾病风险的预测。每个公司都有自己的风险模型,比如:1.23魔方 写的很详细,可以参考https://www.23mofang.com/advantage/authority#userconsent#2.香港大学MBBS博士的疾病风险预测,比较复杂,用的机器学习贝叶斯算法。https://github....
2019-06-13 09:41:07 1594
原创 学习linux的好助手-linux命令解释工具
有时候在听学习视频时,看到大佬输入没见过的linux命令行,就不知道什么意思。现在可以通过在线工具Linux命令解释工具输入你的命令,就会告诉你什么意思,并且对每个参数进行了解释,简直是菜鸟的福音。可能英文不是很方便,那就使用下面的中文版的快速查找 Linux 命令行命令,简直是好用的不行,必须强烈推荐,不仅仅是简单的告诉什么作用,还提供了学习教程,作为学习的教程是极好的。Linu...
2019-06-05 10:39:35 792 1
原创 Biopython根据关键词在NCBI上查找文献
Biopython是python的一个库,这个库可以解决很多生物上的问题,使大量的生物数据简单化,是个很好用的包。对于数据库上的各种信息,有专门的函数处理,不用按照常规的文本处理方法,写大量的代码。比如很常见的报告中展示的参考文献,一般思路是有了文章的PMID,然后通过爬虫的方法,获取这些文章的title,author,source等信息。在Biopython中有自己独特的解决方法。在NC...
2019-05-29 09:12:19 2884
原创 python解析gff文件中的转录本
1.下载基因组注释文件,选择对应的版本:ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/2.GTF 为General Transfer Format ,熟悉格式http://www.huoyunjn.com/wuliuxinwen/2/33709819.htm。第三列feature- 后面...
2019-05-27 13:47:10 6562
原创 pandas 读取文件时的设置header
用pandas 中的read_table()函数时,发现header设置值不一样,所获得的结果也不一样。之前一直认为header = 0 和header = None是一样的,其实是不一样的。读取一个有10行的文件,没有行名1.header =None 时,可以全部读取.2.header =0 时,少一行3.header =1 时,又少一行...
2019-05-17 17:26:26 16476 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人