![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
癌症分型
文章平均质量分 79
YuQiao0303
这个作者很懒,什么都没留下…
展开
-
[个人笔记]R语言:缺失值NA处理
目录前言缺失值分布评估看有多少行有缺失值:VIM:看一下缺失值的分布、比例情况缺失值填补方法Hmisc或e1071包:均值、中位数、随机填充DMwR2包: 中心填充centralImputation 和knn6、rpart (略)mice包的mice函数(略)评估填补效果(还没实施)实践前言项目用到一个数据集,含有很多NA。特此记录怎么处理。主要参考:CSDN一个教程:DMwR为主mice为主银河统计缺失值分布评估看有多少行有缺失值:如果缺失值不多,直接删了有缺失值的样本最方便。每行一原创 2021-07-15 19:49:16 · 3578 阅读 · 0 评论 -
[癌症分型]临床特征的学习和处理
背景:要做癌症的分子分型。现需要对照临床特征。已有一组数据,需要学习其值的含义,并适当处理这些数据。数据如下,每行是一名患者:为了聚类,需要计算距离,将所有值处理为数字会跟方便。因此需要了解各个值的意思。age:可以保持。要或不要都行。gender: 因为是binary的,只有两种取值,所以直接用0和1即可。运行一下代码:data <- read.csv("data/TCGAClinical.csv", encoding="UTF-8",sep=",")# 对每一列,提取所有un.原创 2021-07-08 12:19:44 · 730 阅读 · 0 评论 -
R语言笔记: one-hot 处理为单个的
load("data/kmeans_result.Rdata")读出变量result,result是聚类结果,四分类。读出来的result的大概长这样:Id 1 2 3 41 0 0 0 12 1 0 0 0下面的代码把他改成了这样:Id 类别1 42 1代码在此:load("data/kmeans_result.Rdata")head(result)# one-hot数据处理为单个的source_data = resultnew_result <-原创 2021-07-07 19:23:39 · 596 阅读 · 0 评论 -
[个人笔记]datanovia课程 Cluster Validation Essentials 笔记(R语言聚类基础)
本文是做为一个纯新手小白,对下文做的笔记:R语言聚类分析–cluster, factoextra后续发现有一个很靠谱的英文教程,收到了相关R包的官方推荐:datanovia教程里面分了如下几个课,详细讲了相关理论和API。因此本文变成了这两个教程的笔记。二者大体相似,略有区别。目录标准化PCA画图聚类趋势评估(Assessing Clustering Tendency)Hopkins Statistic 介绍R语言实现方法一:factoextra包的:get_clust_tendency()方原创 2021-07-05 20:19:01 · 1252 阅读 · 1 评论 -
[个人笔记]R语言入门,个人查找手册 + mRNA数据预处理
title: data_preprocessauthor: YuQiaodate: 2021/5/11output: html_document读取数据用csv的方式读取原始数据:RNAFile = "mRNA_FPKM_UQ.txt"#result = readLines(RNAFile)data <- read.csv(RNAFile, encoding="UTF-8",sep="\t")print(class(data))删除重复数据每一列是一个用户,每一列第一行是用.原创 2021-06-25 11:02:16 · 712 阅读 · 0 评论 -
生物信息学入门——环境搭建记录(pycharm 安装R语言)
为什么选PyCharm纯计算机出身,无生物学背景(仅普通高中生物知识),本来要做基于mRNA和miRNA组学的癌症分型。一番调研发现生物信息学东西很多。查了半天,一般建议是linux + R语言 + 统计学知识等。先开始已经准备整linux了,在windows上安装了应用商店的ubuntu,但发现后续教程很多都是用windows上的RStudio。加上自己电脑本身一般,还是有点担心linux能不能hold住。而且我们数据量暂时不大。新手入门可能别整那么麻烦吧,赶紧先上手更好?偶然间发现p原创 2021-05-10 21:57:32 · 2034 阅读 · 1 评论 -
[论文笔记][nature medicine]The consensus molecular subtypes of colorectal cancer
colorectal cancer (CRC)结肠直肠癌.consensus molecular subtypes (CMS) 共识分子亚型首先弄了六个独立的CRC分型算法。(用了不同的数据集和分析方法)。这样每个sample就有六个方法得到的六钟分型标签。六钟方法分别有5,6,3,3,5,5中分型,一共是27种。然后用了一个网络方法来分析6中分型算法的联系:上述27中分型作为图的节点,有权边的值是Jaccard similarity coefficients。 用一个Markov cluster (原创 2021-05-06 10:01:38 · 1949 阅读 · 1 评论 -
[个人笔记]基于多组学数据的癌症分型相关资料学习
论文:基于多组学数据的癌症分型研究癌症分型:同一种癌症类型的患者表现形状不同,属于不同亚型。区分不同亚型,能提供个性化治疗方案,提高治愈率。组学数据:基因单碱基突变DNA 甲基化拷贝数变异mRNA 基因表达miRNA 基因表达…基本原理:绝大部分癌症是由基因突变驱动异常细胞生长引起的。常用方法:通过各种方式提取特征,再用k-means进行聚类。...原创 2021-04-09 11:16:06 · 1008 阅读 · 0 评论