单细胞测序
hyena_7
这个作者很懒,什么都没留下…
展开
-
单细胞分析中归一化和标准化的区别
归一化和标准化的区别:二者的界限也没有特别明显,也没有必要把这两个概念分的特别清楚。只要清楚它们大概的使用范围就可以了:常用的归一化是log处理,之前离散程度很大的数据就被集中了常用的标准化是z-score:考虑到了不同样本对表达量的影响,消除到了表达的平均水平和偏离度的影响使用范围:如果对表达量的范围有要求,用log归一化如果表达量较为稳定,不存在极端最大最小值,使用归一化如果表达量离散程度很大,存在异常值和较多噪音,用标准化可以避免异常值和极端值的影响在分类、聚类、PCA算原创 2021-08-13 11:26:35 · 5702 阅读 · 4 评论 -
single cell marker 基因数据库
Mouse Cell Atlas:https://links.jianshu.com/go?to=http%3A%2F%2Fbis.zju.edu.cn%2FMCA%2FCellMarker:https://links.jianshu.com/go?to=http%3A%2F%2Fbio-bigdata.hrbmu.edu.cn%2FCellMarker%2FBD||cd_marker_handbook:https://links.jianshu.com/go?to=https%3A%2F%2Fwww.原创 2021-06-22 15:09:02 · 1083 阅读 · 0 评论 -
根据DNA序列预测TF
1.如何根据染色体坐标快速得到基因组的 DNA 序列:samtools faidx hg19.fasamtools faidx hg19.fa chr17:79988101-79990060得到fasta格式的序列2.根据fasta格式的序列,得到对应的TF:https://cloud.tencent.com/developer/article/1481942...原创 2021-06-06 11:25:54 · 301 阅读 · 0 评论 -
使用scanpy做Cell_gene_count矩阵的归一化
1.三元组转换到稀疏矩阵原始文件为三元组import numpy as npimport pandas as pdimport scipy.sparse as spdf=pd.read_csv('/home/***/JupyterNotebook/Multiomics_data/training_data/Final_RNA_sciCAR_A549_gene_count.csv',delimiter=',',engine='python')dflist_row=df['sample_inde原创 2021-05-27 17:32:43 · 862 阅读 · 0 评论 -
Homer小记
背景知识:Motif:在生物学中是一个基于数据的数学统计模型,典型的是一段sequence也可以是一个结构,是特定的group的序列预测,例如一个DNA sequence可以定义为转录因子结合位点,也就是序列倾向于被这种factor结合。对蛋白质来说,sequence motifs可以被定义为蛋白质(蛋白质序列)属于一个给定的蛋白质家族。当然也有更复杂的motif模型。Motif有时和特定的功能联系一起。简单来说:motif可以位于操作基因中也可能是在结构基因中,实际上就是说一个类群的基因中共有的一些特原创 2021-05-22 17:38:54 · 2671 阅读 · 1 评论 -
samtools小记
samtools是一个用于操作sam和bam文件的工具合集。sam为bam文件的十进制文件;bam为二进制文件。View作用:bam与sam互转,查看bam文件,对bam进行排序和提取的操作。 - sam与bam互转:-S指定输入文件格式为sam,不加则为bam,-b指定输出格式(默认输出sam)samtools view -Sb SRR3589956.sam >SRR3589956.bam #重定向符也可以换成-o参数samtools view -h SRR3589956.bam >原创 2021-05-19 22:01:51 · 844 阅读 · 0 评论 -
ENCODE---GENCODE---TCGA---1000 GENOME
ENCODE一、简介人类基因组计划的主要目标是产生人类和主要模式生物(包括大肠杆菌(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)及小鼠(Mus musculus))的精确基因组序列。研究人员可以免费获取这项研究产生的数据公布,这又促进了人类基因组变异图谱的产生和发展(International HapMap Project)。然而,人们仍然不了解基因组如何编码产生多细胞有机体。这就需要精确原创 2021-05-18 20:48:47 · 914 阅读 · 0 评论 -
生物信息学三大数据库NCBI-ENSEMBL-UCSC
NCBINCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。 目前有将近40个在线的文库和分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。网址: https://www.ncbi.nlm.nih.gov/原创 2021-05-18 19:53:16 · 37023 阅读 · 0 评论 -
常用数据库的基因ID
1.Ensembl stable ID : Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.例如:ENS表示物种(human),G表示基因(gene)2.UniProt UniProt 中录入的数据都被分配了一个唯一的 entry name,叫做UniProtKB/Swiss-Prot entry name。它是最多有 11 位包含大写.原创 2021-05-18 11:28:04 · 9651 阅读 · 0 评论 -
三代测序技术的特点
在测序市场中,一代测序因其准确度高,仍作为突变检测、单菌鉴定等的金标准而存在。 以illumina HiSeq和MiSeq为代表的二代测序势头强劲,主打低成本和高通量,2017新机型NovaSeq更宣称已将测序成本降至百美金。 科研市场上三代测序最常见的莫过于PacBio,辅以冉冉上升的新星Nanopore等,主打长读长策略,直击二代测序碎片化序列的软肋,在基因组de novo上表现不俗,错误率较高,但可被矫正。...原创 2021-05-17 20:17:00 · 1546 阅读 · 0 评论 -
NCBI下载SRA数据的4种方法
https://www.jianshu.com/p/0694fcb77157原创 2021-04-28 16:29:31 · 539 阅读 · 0 评论 -
GEO 数据介绍及在线下载
下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:GSE数据编号(Series)GPL数据编号(GEO platforms)GSM数据编号(Samples)GDS数据编号(Datasets)一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEOplatforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息.原创 2021-04-23 15:23:55 · 1885 阅读 · 0 评论 -
Something about PAGA
一. 聚类的连接聚类分析用于对细胞进行分组并确定数据集中存在的细胞类型,但是聚类本身并不能告诉我们有关这些组之间如何相互联系的任何信息。在存在多种分化细胞类型的发育背景下,这些关系是令人关注的。 这些关系的某些方面可以从降维空间里聚类的邻近程度或从分配的细胞类型的已知生物学中推断出来,但这主要是基于直觉而不是数据中的信息。在scRNA-seq数据中计算发育轨迹的计算方法一直是早期scRNA-seq生物信息学研究的重点。在之前大部分发育轨迹的的分析中,一般使用Monocle包为细胞构建伪时序。但是,像这样的原创 2021-04-15 15:52:08 · 728 阅读 · 0 评论 -
伪时序分析词汇(三)
假阴性错误(false-negative errors):高水平的基因可能偶尔没有检测到假阳性错误(false-positive errors):低水平表达的基因由于扩增偏差,可能显得过于丰富,导致假阳性错误批量效应(batch effect):当实验设计不当的时,数据结果会显著受到批量效应的影响。批量效应是指在不同条件下测量总体产生不同的性质,且与研究中的生物或者科学变量无关。例如在周一运行一组实验,在周二运行另一组实验,或者两个技术人员负责不同的实验,或者使用两种不同批量的试剂,..原创 2021-04-13 20:03:08 · 584 阅读 · 0 评论 -
伪时序分析词汇(二)
1.checkpoint:细胞周期检查点 (checkpoint)是细胞周期(cell cycle)中的一套保证DNA复制和染色体(chromosome)分配质量的检查机制。是一类负反馈调节机制。当细胞周期进程中出现异常事件,如DNA损伤或DNA复制受阻时,这类调节机制就被激活,及时地中断细胞周期的运行。待细胞修复或排除故障后,细胞周期才能恢复运转。2 .DNAdamage checkpoint:DNA损伤检查点,负责查看DNA有无损伤。3 .DNAreplication checkpoint : DN原创 2021-04-13 14:14:30 · 294 阅读 · 0 评论 -
差异表达基因
什么是差异表达基因?在不同组织中表达发生明显变化的基因是导致细胞状态发生变化的关键基因是表达谱分析的主要对象原创 2021-03-21 09:37:22 · 1978 阅读 · 0 评论 -
使用scanpy中的louvain发生ModuleNotFoundError 找不到louvain的解决办法
解决办法非常简单,只要在Anaconda Prompt中输入pip install scanpy[louvain] 即可,刚开始安装scanpy的时候直接使用的命令是pip install scanpy,会缺少louvain包。原创 2021-03-16 16:47:27 · 3218 阅读 · 0 评论 -
单细胞测序数据处理流程
https://www.cnblogs.com/aipufu/p/11480779.htmlhttps://blog.csdn.net/weixin_40640700/article/details/114371342原创 2021-03-11 09:33:21 · 1635 阅读 · 0 评论 -
RT-PCR、QPCR、Real-time PCR、Real-time RT-PCR区别(自用)
什么是 RT-PCR?RT-PCR 就是逆转录 PCR(reverse transcription PCR)或者称反转录 PCR(reverse transcription-PCR, RT-PCR),是聚合酶链式反应(PCR)的一种广泛应用的变形。在 RT-PCR 中,一条 RNA链被逆转录成为互补 DNA,再以此为模板通过 PCR 进行 DNA 扩增。那什么是 qPCR、Real-time-PCR?其实 Rea-time-PCR 和 qPCR(Quantitative Rea-time.转载 2021-02-19 21:25:21 · 15223 阅读 · 0 评论 -
理解高通量测序技术和单细胞测序技术(自用)
首先明确单细胞测序技术不一定是高通量的,有单细胞测序技术,高通量测序技术,包括高通量测序技术在内的所有高通量技术,用于单细胞测序的高通量技术。如果我们要从技术层面理解单细胞测序并分析其优势,就必然绕不开对“单细胞测序”“高通量技术”等概念的准确的把握。我们必须搞清楚,当一种技术前面带了“单细胞”(Single-cell)或“高通量”(High-throughput)的字眼时,它们分别代表了什么。单细胞,就是单个(仅一个)细胞的意思。针对单个细胞展开的分析统称为单细胞分析(Single-cellana.转载 2021-02-19 11:10:19 · 12084 阅读 · 6 评论 -
区分Bulk测序和高通量单细胞测序中的提高细胞通量
区分Bulk测序和高通量单细胞测序中的提高细胞通量首先区分下单细胞测序和Bulk测序:单细胞测序(scRNA-seq)与bulk测序(Bulk RNA-seq)的不同之处是BulkRNA-seq是提取组织、器官或一群细胞的混合RNA(bulkRNA)进行测序,能够得到的是一群细胞的转录组的平均数据,或者说是代表性数据,细胞群体中单个细胞的特异性信息往往被掩盖,比如特异表达的基因或RNA不同的剪接体。随着对生物结构功能的深入研究,人们越来越清楚地认识到,哪怕看似相同的细胞群,细胞之间的转录本表达水平原创 2021-02-18 22:36:36 · 18451 阅读 · 5 评论