生物信息学
文章平均质量分 67
coding_Joash
初闻不识曲中意,再闻已是曲中人。
展开
-
短序列比对利器-bwa
官方文档安装#直接conda简单粗暴了 or 去官网下载安装conda install bwa简介即Burrows-Wheeler-Alignment Tool。**BWA 是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包。**它由三个不同的算法:BWA-MEM: 推荐使用的算法,支持较长的read长度,同时支持剪接性比对(split alignments),但是BWA-MEM是更新的算法,也更快,更准确,且 BWA-MEM 对于 70bp-100bp 的 Illumina原创 2021-11-01 10:08:34 · 1839 阅读 · 0 评论 -
task7b-TP53突变与否的TNBC病人基因表达相关性改变
作业链接作业内容重复这个散点图背景知识TNBC-三阴性乳腺癌三阴乳腺癌是指乳腺癌免疫组化结果:雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(Her-2)均为阴性的乳腺癌。三阴性乳腺癌容易早期发生广泛转移,如脑转移、骨转移等情况。所以,化疗在三阴性乳腺癌当中地位很重要。当然,复发高峰在手术以后头三年,过了复发高峰以后,预后也还是非常好的一种恶性肿瘤,具体要看分期如何、病人身体状况,以及接受什么样治疗等。下载数据并提取1.从TCGA.BRCA.sampleMap%2FBRCA原创 2021-10-19 15:44:27 · 658 阅读 · 0 评论 -
task7a-10个细胞系仅1个表达你的基因
作业链接1.下载CCLE数据库的RNA-seq的表达矩阵https://depmap.org/portal/download/?release=CCLE+2019&release=Fusion&release=DNA+Copy+Number下载CCLE_RNAseq_rsem_genes_tpm_20180929.txt.gz这个数据集2.提取BREAST的细胞系TPM数据library(data.table)library(dplyr)CCLE_RNAseq_tpm =原创 2021-10-19 15:42:16 · 449 阅读 · 0 评论 -
task6b-哦别做梦了-TP53在TCGA的肝癌的有配对样本病人的转录组数据表达量配对图
作业链接0.作业题目从ucsc的xena浏览器里面下载感兴趣癌症,比如肝癌的表达矩阵(counts值)然后根据样本名字拿到有配对的几十个病人的癌症和正常对照数据(部分癌症数据并没有对照)接着提取感兴趣基因(比如TP53)的表达量最后套用上面的绘图代码即可!1.数据下载下载网址![1634287851(1).jpg](https://img-blog.csdnimg.cn/img_convert/68a30dad6b1cbf8b3b17646a6e09e842.png#client原创 2021-10-15 23:53:43 · 978 阅读 · 0 评论 -
task5b-验证lncRNA只有部分具有polyA尾结构
题目:下载人和鼠的gtf文件,以及转录本fasta序列文件,自己去探索一下:gtf文件记录了多少个基因,多少个是蛋白编码基因;多少个是lncRNA呢?其中各自的具有polyA尾结构的比例是多少呢?背景知识真核生物的mRNA都是有polyA尾巴结构lncRNA只有部分具有polyA尾结构数据下载Genocode刚好有人和小鼠的gtf文件以及转录本fasta序列文件#humanwget -c 'http://ftp.ebi.ac.uk/pub/databases/gencode/Ge原创 2021-10-03 23:46:56 · 1243 阅读 · 0 评论 -
task5a-什么,基因只剩下了三分之一
作业题目去gencode数据库拿到最新的人类的gtf文件,仅仅是挑选蛋白编码基因即可,约2万个,然后把基因名字按照字母顺序排好,取前面的三分之一,对它进行一些基因分布特征的检验,比如是否集中于某条染色体,或者其它一切你能想到的检验。下载数据wget -c 'http://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/gencode.v38.chr_patch_hapl_scaff.annotation.gtf.gz'挑原创 2021-10-03 23:44:14 · 143 阅读 · 0 评论 -
task4c-研究最热门的基因是什么
作业链接作业题目gene2pubmed.gz 约50M文件里面的信息太丰富了,有1333万行信息,仅仅是人类就有159万行的文献,涉及到3万9千的基因数量,绝大部分基因都是如过眼云烟,很少人去研究它。我们的TP53能拔得头彩也是不容易,但它也有自己的发展规律,希望大家可以更细致去探索 ftp://ftp.ncbi.nlm.nih.gov//gene 里面的文件。比如这样的top 100的基因词云,其实可以做出来最近30年的变化规律,只需要你去找到文献的时间年份信息,进行拆分,每个年份独立统计绘图即可原创 2021-10-01 17:13:44 · 267 阅读 · 0 评论 -
GO and KEGG富集分析
GO基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:细胞组分(cellular component)CC:细胞的每个部分和细胞外环境。分子功能(molecular function)MF:可以描述为分子水平的活性(activity),如催化(catalytic)或结合(binding)活性。生物过程(biological process)BP:生物学过程系指由一个或多个分子功能有序组合而产生的系列事件。其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律是,一个过程是由多原创 2021-09-15 16:36:48 · 3545 阅读 · 0 评论