生信技能树-作业
文章平均质量分 55
coding_Joash
初闻不识曲中意,再闻已是曲中人。
展开
-
task7b-TP53突变与否的TNBC病人基因表达相关性改变
作业链接作业内容重复这个散点图背景知识TNBC-三阴性乳腺癌三阴乳腺癌是指乳腺癌免疫组化结果:雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(Her-2)均为阴性的乳腺癌。三阴性乳腺癌容易早期发生广泛转移,如脑转移、骨转移等情况。所以,化疗在三阴性乳腺癌当中地位很重要。当然,复发高峰在手术以后头三年,过了复发高峰以后,预后也还是非常好的一种恶性肿瘤,具体要看分期如何、病人身体状况,以及接受什么样治疗等。下载数据并提取1.从TCGA.BRCA.sampleMap%2FBRCA原创 2021-10-19 15:44:27 · 563 阅读 · 0 评论 -
task7a-10个细胞系仅1个表达你的基因
作业链接1.下载CCLE数据库的RNA-seq的表达矩阵https://depmap.org/portal/download/?release=CCLE+2019&release=Fusion&release=DNA+Copy+Number下载CCLE_RNAseq_rsem_genes_tpm_20180929.txt.gz这个数据集2.提取BREAST的细胞系TPM数据library(data.table)library(dplyr)CCLE_RNAseq_tpm =原创 2021-10-19 15:42:16 · 356 阅读 · 0 评论 -
task6b-哦别做梦了-TP53在TCGA的肝癌的有配对样本病人的转录组数据表达量配对图
作业链接0.作业题目从ucsc的xena浏览器里面下载感兴趣癌症,比如肝癌的表达矩阵(counts值)然后根据样本名字拿到有配对的几十个病人的癌症和正常对照数据(部分癌症数据并没有对照)接着提取感兴趣基因(比如TP53)的表达量最后套用上面的绘图代码即可!1.数据下载下载网址![1634287851(1).jpg](https://img-blog.csdnimg.cn/img_convert/68a30dad6b1cbf8b3b17646a6e09e842.png#client原创 2021-10-15 23:53:43 · 862 阅读 · 0 评论 -
task5b-验证lncRNA只有部分具有polyA尾结构
题目:下载人和鼠的gtf文件,以及转录本fasta序列文件,自己去探索一下:gtf文件记录了多少个基因,多少个是蛋白编码基因;多少个是lncRNA呢?其中各自的具有polyA尾结构的比例是多少呢?背景知识真核生物的mRNA都是有polyA尾巴结构lncRNA只有部分具有polyA尾结构数据下载Genocode刚好有人和小鼠的gtf文件以及转录本fasta序列文件#humanwget -c 'http://ftp.ebi.ac.uk/pub/databases/gencode/Ge原创 2021-10-03 23:46:56 · 1135 阅读 · 0 评论 -
task5a-什么,基因只剩下了三分之一
作业题目去gencode数据库拿到最新的人类的gtf文件,仅仅是挑选蛋白编码基因即可,约2万个,然后把基因名字按照字母顺序排好,取前面的三分之一,对它进行一些基因分布特征的检验,比如是否集中于某条染色体,或者其它一切你能想到的检验。下载数据wget -c 'http://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/gencode.v38.chr_patch_hapl_scaff.annotation.gtf.gz'挑原创 2021-10-03 23:44:14 · 114 阅读 · 0 评论 -
task4c-研究最热门的基因是什么
作业链接作业题目gene2pubmed.gz 约50M文件里面的信息太丰富了,有1333万行信息,仅仅是人类就有159万行的文献,涉及到3万9千的基因数量,绝大部分基因都是如过眼云烟,很少人去研究它。我们的TP53能拔得头彩也是不容易,但它也有自己的发展规律,希望大家可以更细致去探索 ftp://ftp.ncbi.nlm.nih.gov//gene 里面的文件。比如这样的top 100的基因词云,其实可以做出来最近30年的变化规律,只需要你去找到文献的时间年份信息,进行拆分,每个年份独立统计绘图即可原创 2021-10-01 17:13:44 · 215 阅读 · 0 评论 -
task4a_TCGA_Pan_Cancer
把tcga大计划的CNS级别文章标题画一个词云给自己的浏览器装个XPATH点击XPATH然后写入://*/div[1]/div/div/div/div/ul/li[2]/a直接复制右边的33篇文章标题,存为TCGA_33_title.txt即可file <- scan('TCGA_33_title.txt',sep='\n',what='',encoding="UTF-8")txtList = lapply(file, strsplit,"\\s+") #使用空格符号进行分词txt原创 2021-09-23 11:30:53 · 171 阅读 · 0 评论 -
task4b_Nature_Pan_Cancer_词云
把tcga大计划的CNS级别文章标题画一个词云获取网页的泛癌文章标题,目前一共24篇get_title <- function(url){ web <- xml2::read_html(url, encoding = "utf-8") #解析url urlpage <- XML::htmlParse(web) #解析xml title = XML::xpathSApply(urlpage, '//*[@id="content"]/div[3]/section/articl原创 2021-09-23 09:49:00 · 121 阅读 · 0 评论 -
task3a_gmt函数
gmt文件定义gmt格式是多列注释文件,列与列之间都是TAB分割。第1列: 是基因所属基因集的名字,可以是通路名字,也可以是自己定义的任何名字。第2列 :官方提供的格式是URL,可以是任意字符串。第3列-第n列: 后面是基因集内基因的名字,有几个写几列。library(clusterProfiler)data(gcSample) #加载gcSample数据集#第一列用X1-X8,第二列无内容用‘NA’代替,第三列-第N列为基因的entrenz id#文件以制表符分隔开get_gmt原创 2021-09-22 20:54:56 · 484 阅读 · 0 评论 -
task3b-词云
作业链接library(jiebaR)library(wordcloud2)#读入数据分隔符是‘\n’,字符编码是‘UTF-8’,what=''表示以字符串类型读入file <- scan('ciyun.txt',sep='\n',what='',encoding="UTF-8")txtList = lapply(file, strsplit,"\\s+") #使用空格符号进行分词txtChar = tolower(unlist(txtList))txtChar <- txt原创 2021-09-22 19:21:21 · 110 阅读 · 0 评论 -
task2-基于小鼠的基因集数据库资源
作业链接-基于小鼠的基因集数据库资源许多不同的物种间都具有同源性。现代分子生物学中的同源性描述的是基因与基因之间相似关系,它表明的是两个相比较的序列之间的匹配程度。一般来说,如果两条基因序列相似性达80% ,就可以把它们称为“同源基因(homologousgene)”。下载地址# http://bioinf.wehi.edu.au/software/MSigDB/human_H_v5p2.rdata# http://bioinf.wehi.edu.au/software/MSigDB/mouse_H原创 2021-09-13 18:39:56 · 303 阅读 · 0 评论 -
生信技能树-task1-人类基因组外显子区域长度
目标:统计人类基因组外显子区域长度题目数据来源为:ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/CCDS.current.txtperl实现open F,"CCDS.current.txt";while(<F>){#一行一行读取数据 next if /^#/;#pass掉带#符号开头的行,即首行 chomp;#去掉末尾的换行符 @arr=split /\t/;#以制表符切割读取的每一行数据 next unles原创 2021-09-07 22:46:14 · 839 阅读 · 0 评论 -
task1-人鼠基因转换之首字母大写
library("hash") #加载能用哈希数据结构的包human_gene <- c("PTPRC","EPCAM","MME","CD3G","CD3E","CD68","CD79A") #若干人类基因upper_low <- function(var) { hash_letters <- hash( toupper( letters ), letters ) position=1 for(letter in strsplit(var,split = "")[[原创 2021-09-07 23:51:15 · 455 阅读 · 0 评论