
R语言
文章平均质量分 54
YuQiao0303
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[个人笔记]R语言:缺失值NA处理
目录前言缺失值分布评估看有多少行有缺失值:VIM:看一下缺失值的分布、比例情况缺失值填补方法Hmisc或e1071包:均值、中位数、随机填充DMwR2包: 中心填充centralImputation 和knn6、rpart (略)mice包的mice函数(略)评估填补效果(还没实施)实践前言项目用到一个数据集,含有很多NA。特此记录怎么处理。主要参考:CSDN一个教程:DMwR为主mice为主银河统计缺失值分布评估看有多少行有缺失值:如果缺失值不多,直接删了有缺失值的样本最方便。每行一原创 2021-07-15 19:49:16 · 4094 阅读 · 0 评论 -
R语言转移字符无效的问题
解决方案:不用print而是改用cat。注意cat没有自动换行。> print("1\t2")[1] "1\t2"> cat("1\t2")1 2参考:https://bbs.pinggu.org/thread-3490731-1-1.html原创 2021-07-08 11:52:48 · 509 阅读 · 0 评论 -
RStudio修改界面设置: 几个个人喜欢的深色主题记录
Tools->Global Options -> Apperance第一个theme我没试过,不用管。字体可以都试试。主要是第三个Editor theme,深色主题推荐下面三个:Cobalt, Idle Fingers, Material原创 2021-07-08 11:23:38 · 10172 阅读 · 0 评论 -
R语言笔记: one-hot 处理为单个的
load("data/kmeans_result.Rdata")读出变量result,result是聚类结果,四分类。读出来的result的大概长这样:Id 1 2 3 41 0 0 0 12 1 0 0 0下面的代码把他改成了这样:Id 类别1 42 1代码在此:load("data/kmeans_result.Rdata")head(result)# one-hot数据处理为单个的source_data = resultnew_result <-原创 2021-07-07 19:23:39 · 698 阅读 · 0 评论 -
[个人笔记]datanovia课程 Cluster Validation Essentials 笔记(R语言聚类基础)
本文是做为一个纯新手小白,对下文做的笔记:R语言聚类分析–cluster, factoextra后续发现有一个很靠谱的英文教程,收到了相关R包的官方推荐:datanovia教程里面分了如下几个课,详细讲了相关理论和API。因此本文变成了这两个教程的笔记。二者大体相似,略有区别。目录标准化PCA画图聚类趋势评估(Assessing Clustering Tendency)Hopkins Statistic 介绍R语言实现方法一:factoextra包的:get_clust_tendency()方原创 2021-07-05 20:19:01 · 2014 阅读 · 1 评论 -
[个人笔记]R语言入门,个人查找手册 + mRNA数据预处理
title: data_preprocessauthor: YuQiaodate: 2021/5/11output: html_document读取数据用csv的方式读取原始数据:RNAFile = "mRNA_FPKM_UQ.txt"#result = readLines(RNAFile)data <- read.csv(RNAFile, encoding="UTF-8",sep="\t")print(class(data))删除重复数据每一列是一个用户,每一列第一行是用.原创 2021-06-25 11:02:16 · 840 阅读 · 0 评论 -
R语言 处理二维数据的工具函数
获得非numetric元素的坐标:nonNumericInFrame <- function (frame){ test = as.matrix(frame) test = as.numeric(test) logiVec = which(is.na(test)) i = as.integer(logiVec %% nrow(data2_no_rep)) j = as.integer(floor(logiVec / nrow(data2_no_rep))+1) (cbin原创 2021-05-26 10:46:36 · 296 阅读 · 0 评论 -
生物信息学入门——环境搭建记录(pycharm 安装R语言)
为什么选PyCharm纯计算机出身,无生物学背景(仅普通高中生物知识),本来要做基于mRNA和miRNA组学的癌症分型。一番调研发现生物信息学东西很多。查了半天,一般建议是linux + R语言 + 统计学知识等。先开始已经准备整linux了,在windows上安装了应用商店的ubuntu,但发现后续教程很多都是用windows上的RStudio。加上自己电脑本身一般,还是有点担心linux能不能hold住。而且我们数据量暂时不大。新手入门可能别整那么麻烦吧,赶紧先上手更好?偶然间发现p原创 2021-05-10 21:57:32 · 2351 阅读 · 1 评论