生物信息
文章平均质量分 62
TIME_@
Personal notebook
展开
-
测序数据饱和度分析
.原创 2022-07-13 19:44:22 · 2469 阅读 · 0 评论 -
bam 行删除
https://blog.csdn.net/liangbilin/article/details/108977163samtools view -H test.bam | sed -e ‘s/SN:([0-9XY])/SN:chr\1/’ -e ‘s/SN:MT/SN:chrM/’ | samtools reheader - test.bam > test.CHR.bam报错采用 转sam 删除samtools view *.bam -O SAM > *.samsed再转bam报原创 2022-04-28 16:27:09 · 646 阅读 · 0 评论 -
MSU转Uniprot转Entrez ID
PlantGSEADAVID注意是Uniprot ACCESSION还是Uniprot ID网站:https://david.ncifcrf.gov/并打开Gene ID Conversion12Submit34 再点击ID conversion5 选择ENTREZ ID6原创 2021-12-17 09:15:28 · 852 阅读 · 0 评论 -
未比对上的bam reads 处理
查看bam文件 flags 4代表read未比对上;samtools view -f 4 *bam|less -S提取提取unmapped序列:samtools view -b -h -f 4 *.bam > unmapped.bam-h 文件包含header line;-f,提取;-b,输出为bam格式###-F参数是过滤的意思(filter);类似grep -vsamtools view -b -h -F 4 *.bam > mapped.bamF意思为过滤掉以4为标签的序原创 2021-12-06 21:19:56 · 2346 阅读 · 0 评论 -
坐标1-based和0-based
1-base 系统:序列的第一个碱基是1,区域是一个闭区间,例如第3个到第7个碱基表示为[3,7]。SAM,GFF和WIG格式用的就是1-base坐标系统。0-base 系统:序列的第一个碱基是0.在此系统中碱基区域是由半闭半开区间表示的,例如第3个到第7个碱基表示为[2,7)。BAM,BED和PSL格式用的是0-base坐标系统。...原创 2021-09-01 10:07:10 · 615 阅读 · 0 评论 -
gtf与gff3文件【格式】【转换】
GFF3 官方General Feature Format Version 3存储序列结构信息的一种数据格式。序列结构就是一个scaffold或者染色体上面每个位置都是什么序列元件。GFF每一行代表一个序列元件(以#为开头的注释行除外),一行9列9个属性,必须tab分割,属性为空用“.”代替。1. seqid - scaffold或者chromosome的名称说明2. source - 产生一个序列元件的软件的名称或者数据源(数据库名称或者项目名称)3. type - 序列元件的类型,例如:原创 2021-08-31 21:03:03 · 7253 阅读 · 0 评论 -
软件Trimmomatic
文库构建前,核酸经过随机打断,有的本身就长短不一(mRNA),因此接头之间片段长度也长短不一,而二代测序的测序长度一般是固定,肯定会有部分短于测序读长的序列被测序,因此测序序列中包含了部分或全部接头序列,需要进行接头序列的检测并过滤掉对应的reads或截掉接头序列。Trimmomatic下载链接Paired End:You often don’t need leading and traling clipping. Also in general keepBothReads can be useful原创 2021-08-31 15:48:13 · 871 阅读 · 0 评论 -
多组学研究文献
ChIP-seq与RNA-seq联手挖掘水稻耐旱因子水稻基因组数据#1.水稻MSU版本的数据库(2011年最后一次更新,已经很旧了)http://rice.uga.edu/wget -c http://rice.uga.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.con #参考基因组wget -c http://rice.uga.edu/pub/d原创 2021-08-30 17:56:03 · 219 阅读 · 0 评论 -
单端测序(Single end)和双端测序(Pair end和Mate pair)
原文以solexa为例,Single-read、Paired-end和Mate-pair主要区别为测序文库构建方法。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End原创 2021-08-28 12:09:27 · 6152 阅读 · 0 评论 -
多组学-ATAC-seq-概念
s原创 2021-08-27 20:14:38 · 1186 阅读 · 0 评论 -
PacBio三代测序
PacBio的HiFi(High fidelity reads)模式PacBio的CLR(continuous long-read)模式原创 2021-08-27 11:07:48 · 8873 阅读 · 0 评论 -
Normalization overview(代谢组学数据)
The normalization procedures are grouped into three categories.The sample normalization allows general-purpose adjustment for differences among sample.Data transformation and scaling are two different approaches to make individual features more comparab.原创 2021-07-15 10:54:10 · 1724 阅读 · 0 评论 -
fasta数据处理
文档原创 2021-07-14 15:13:44 · 640 阅读 · 0 评论 -
Kraken2 物种序列比对 注释
kraken基于k-mer精确比对,采用最LCA投票结果快速宏基因组DNA序列进行物种注释。Kraken2数据库至少包括3个文件hash.k2d: 物种地图,即所有序列与物种的数据库opts.k2d: 数据库构建的信息taxo.k2d: 数据库的分类学信息以上文件为快速读取,全为二进制文件。如果仅使用kraken2,除以上三个文件外,其它的文件在空间有限下可以删除。如果要使用bracken时,仍需保留其他文件,用于构建索引等。标准数据库构建#下载数据库,先设置存放位置DBNAME=~/db原创 2021-07-13 17:55:09 · 3301 阅读 · 2 评论 -
PLS-DA
roplsif (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")#The following initializes usage of Bioc develBiocManager::install(version='devel')BiocManager::install("ropls")PLS-DA(Partial Least Squares Discriminant原创 2021-07-06 16:37:49 · 8572 阅读 · 1 评论 -
TCGA的样本命名规则
sample原创 2021-07-06 10:10:17 · 2990 阅读 · 0 评论 -
R语言PCA分析
princomp,prcomp及rdaR中输入数据类型有两类,R mode和Q mode。一般来说数据每一列为一个变量(variable),每一行为一个数据(observation)。其中R mode的数据行数大于列数,是基于变量的分析;Q mode数据列数大于行数,是基于数据的分析。Princomp和prcomp都是R自带的stats包中的函数。Princomp只能用于R mode,它基于协方差(covariance) 或者相关矩阵(correlation) 提取的特征(eigen)并进行特征值分解原创 2021-07-06 00:00:31 · 12239 阅读 · 5 评论 -
NCBI dbGap数据下载记录
参考了文档准备项:PI账号。下载和安装软件wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz解压:tar zxf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz安装:sh ibm-aspera-connect-3.9.1.171801-linux-g2.1原创 2021-06-22 17:15:21 · 1736 阅读 · 0 评论 -
[E::fai_build_core] Different line length in sequence ‘kraken:taxid|436|NZ_CP062147.1‘
ERROR record:下载了所有细菌fna后,整合成一整个fna文件,大小99G.samtools faidx library.fnaerror:[E::fai_build_core] Different line length in sequence 'kraken:taxid|436|NZ_CP062147.1'googleDid you take a look at that sequence in question? It may be just acase of a broke原创 2021-06-21 17:18:06 · 1059 阅读 · 0 评论 -
bam文件处理 转fq
原始 BAM 文件和 sort 之后 BAM 文件的行数,是一样的。SEQanswers:BAM is compressed. Sorting helps to give a better compression ratio because similar sequences are grouped together.bam转回fq时报错: *****WARNING: Query 17 is marked as paired, but its mate does not occur next to i原创 2021-06-16 12:38:35 · 1335 阅读 · 0 评论 -
NCBI 下载fna文件 human viral bacteria
基于manifest 手动批量下载#!/usr/bin/bashcat manifest.txt | while read rowdopath=`dirname $row`# para -d check dirif [ ! -d "$path" ]; thenmkdir -p "$path"fi# para -f check fileif [ ! -f "$row" ]; thencd "$path"wget -c https://ftp.ncbi.nlm.nih.gov/gen原创 2021-06-16 11:50:22 · 1395 阅读 · 0 评论 -
samtools 检测bam文件的完整度
检测bam文件的完整度samtools view T_recal.bam|head samtools view T_recal.bam|tail for i in *.bam ;do (samtools quickcheck $i && echo "ok" || echo $i error);done原创 2021-05-26 15:38:27 · 2000 阅读 · 0 评论 -
Metabolomics
l原创 2021-04-08 12:06:24 · 23721 阅读 · 0 评论 -
文献阅读TBS
Townes-Brocks SyndromeSummary唐斯-布洛克综合征(TBS)临床特征肛门闭锁(84%)耳朵发育不良87%;过度折叠的上螺旋和耳前标记;常与感音神经性和/或传导性听力损伤相关[65%]。拇指畸形(89%;三指拇指,重复拇指(轴前多指),少有的拇指发育不全。肾损害(42%),包括终末期肾病(ESRD),可伴有或不伴有结构异常(轻度旋转不良、异位、马蹄肾、肾发育不全、多囊肾、膀胱外反流)。25%的人患有先天性心脏病。足部畸形(52%;扁平足、重叠脚趾)。泌尿生殖系.原创 2021-04-05 16:41:37 · 391 阅读 · 0 评论 -
多组学
基因组元基因组转录组表观组蛋白组代谢组表型组原创 2021-03-26 10:55:26 · 1773 阅读 · 1 评论 -
基础公共数据库
生物医学数据库:核酸,变异,表达,蛋白结构,功能,通路,表型,疾病,诊疗,药物实验原始数据(公共数据):1KG:目标是发现人群中频率大于1%的变异位点。下载GEO:GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据。GEO芯片数据分析BIGDDBJEMBL-EBI...原创 2021-03-26 10:53:52 · 2525 阅读 · 0 评论 -
原癌基因和抑癌基因总结
原癌基因:肿瘤是由环境因素和遗传因素相互作用所导致。原癌基因和抑癌基因都是在细胞生长、增殖调控中起重要作用的基因。原癌基因(细胞癌基因)是指存在于生物正常细胞基因组中的癌基因。正常情况下,存在于基因组中的原癌基因处于低表达或不表达状态,并发挥重要的生理功能。但在某些条件下,如病毒感染、化学致癌物或辐射作用等,原癌基因可被异常激活,转变为癌基因,诱导细胞发生癌变。特点:普遍性(生物界广泛存在);保守性(进化过程基因序列高度保守);重要性(一般无害具有生物功能);危害性(激活有害)。活化机制:获得强启动子.转载 2021-03-22 20:29:17 · 6166 阅读 · 0 评论 -
linux 把命令行结果赋值给变量;linux if语句 ; command log
num=`grep $chr *.txt | wc -l`#`使命令行执行 if [ $num -eq 0 ] ; then#注意 [ ] 前后都用空格 echo $num fi原创 2020-12-24 22:43:03 · 726 阅读 · 0 评论 -
david注释
https://www.cnblogs.com/0820LL/p/11656330.htmlclear all 勾选需要的原创 2020-12-23 16:50:35 · 266 阅读 · 0 评论 -
awk 添加自定义变量
awk note原创 2020-09-16 18:02:23 · 2786 阅读 · 1 评论 -
linux行读入,数组,加减乘除
cat sample | while read iddo array=($id)#不能有空格 与perl不同 把读入的数据放进数组() fqname=$array[0]#必须大括号括起来不然$array为一个整体 dirname=${array[1]} echo $fqname echo $dirnamedone ```......原创 2020-09-10 21:59:11 · 803 阅读 · 0 评论 -
R package XML安装
install.packages("XML", type = "binary")参考原创 2020-08-13 21:51:00 · 1394 阅读 · 0 评论 -
sciII思路总结
20190718CopywriteRGISTIC2GISTIC通过两个关键步骤来识别显著性CNV突变。1) 该方法计算涉及CNV出现频率(在整个基因组的所有拷贝数变异中,某个突变的频率 )和CNV改变幅度的统计量(G分数)。每一个样本每个区域各自有幅度,整合起来就是G score。2)通过将观察到的统计数据与偶然的预期结果进行比较,评估每种CNV的统计显著性。使用假阳性发现率(FDR)进行多重假设检验,并为每个结果分配一个q值(越小越好 0.25分界?),反映了该事件归因于随机波动的可能性。3)基于G原创 2020-07-19 11:30:06 · 302 阅读 · 0 评论 -
Bedtools使用
123原创 2020-07-02 17:35:55 · 350 阅读 · 0 评论 -
根据gtf格式的基因注释文件得到人所有基因的染色体坐标
mkdir -p ~/reference/gtf/gencodecd ~/reference/gtf/gencode## https://www.gencodegenes.org/releases/current.htmlwget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_25/gencode.v25.2wayconspseudos.gtf.gzwget ftp://ftp.sanger.ac.uk/pub/gencode/G原创 2020-07-02 10:11:48 · 2770 阅读 · 1 评论 -
Varscan2 Call snp_indel
Varscan2官方文档01:mpileup文件准备samtools mpileup -d 1000 -Q 20 -q 30 -f /data2/references/Homo_sapiens/hg38.genomic.fa pa01_tumor1.bam >pa01_tumor1.mpileup 02:使用Varscan2的 somatic 命令USAGE: java -jar VarScan.jar somatic [normal_pileup] [tumor_pileup] [outp原创 2020-06-21 16:14:25 · 1346 阅读 · 0 评论 -
Cervical Cancer mechanism
HPV感染致癌机理原创 2020-06-14 20:54:50 · 230 阅读 · 0 评论 -
Samtools
SAM detailssamtools software原创 2020-06-11 17:26:59 · 1095 阅读 · 0 评论 -
CNVkit使用
文件下载:http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/refFlat.txt.gz./cnvkit/cnvkit.py access /data2/references/Homo_sapiens/hg38.genomic.fa -o access.hg38.bederror:额外安装py包Installing collected packages: pyparsing, kiwisolver, cycler, matplotlibI原创 2020-06-05 19:58:39 · 1416 阅读 · 0 评论 -
job?
关于生信工程师找工作,想到什么就记录下来了,可能会有一些重复,无所谓,自己看明白就好。疫情影响,相关岗位较少,能合适匹配的更少。绝大部分生信岗是NGS应用相关的,最多的是肿瘤或遗传疾病检测,其次是微生物应用,可见纯粹的科服市场确实没落了。质谱生信岗集中在长三角,在珠三角基本找不到。科服市场的发展我认为也赶不上当年的二代测序了。蛋白质组只有零星几家公司在做科服,代谢组相对要多些,且有部分偏应用,比如生物标志物筛选。多组学只是个噱头,系统生物学都要靠谱些。生信范围非常之广,不要指望你之前攒的一些工作原创 2020-06-02 10:46:48 · 177 阅读 · 0 评论