本文集锦了R语言学习中需要用到的知识。可以作为入门了解之用,细节部分本文不做详解
R语言介绍
2、Rstools及package管理
目前常用安装包的方式用三种:分为CRAN中的包/生物信息学相关包/GitHub里面的包
#CRAN中的包
#install.packages() 安装包
#生物信息学相关Bioconductor
#install.packages('BiocManger')
#BiocManager::install('DESeq2')
#GitHub中的包
#install.packages("devtools")
#devtools::install_github("")
3、R 的使用
R是一种区分大小写的解释型语言。你可以在命令提示符( > )后每次输入并执行一条命令或者一次性执行写在脚本文件中的一组命令。R中有多种数据类型,包括向量、矩阵、数据框(类似excel)以及列表(各种对象的集合)。
R中的多数功能是由程序内置函数、用户自编函数和对对象的创建和操作所提供的。一个对象可以是任何能被赋值的东西。对于R来说,对象可以是任何东西(数据、函数、图形、分析结果,等等)。每一个对象都有一个类属性,类属性可以告诉R怎么对之进行处理。
一次交互式会话期间的所有数据对象都被保存在内存中。一些基本函数是默认直接可用的,而其他高级函数则包含于按需加载的程序包中。R语句由函数和赋值构成。R使用
创建数据集
不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测和变量。
1、R语言的变量命名只有字母(区分大小写),数字,下划线,英文点号可以出现
数字和下划线不能开头
英文点号后面不能直接接数字
2、数据类型数值 numeric
字符 character
逻辑 logical:只有两个值TRUE和FALSE,缺失时为NA
因子factor:是名义型变量或有序型变量,一个因子不仅包括分类变量本身,还包括变量的可能的水平(常用分组排序)
3、数据结构向量vector
矩阵matrix
数组array
列表list
数据框data.frame
4、数据的输入
导入 Excel 数据、导入 XML 数据、导入 SPSS 数据等等
R语言数据处理变量的重命名
缺失值
数据集取子集
数据集的合并
数据排序
类型转换
变量的重编码
包括但不限于上述处理~
R语言高级数据管理函数定义
常用函数:统计函数、数学函数、字符处理函数等
控制流:循环和条件
整合与重构:转置、重构和整合数据集(reshape2)
R语言数据可视化初级描述性统计
基础绘图
2、ggplot基础绘图手册:
3、ggplot绘图细节:
R语言数据可视化中高级回归
方差分析
时间序列
假设检验
PCA
每个模块又会有不同的部分:例如回归有一元线性回归和多元线性回归,有lasso回归有岭回归等等,这一部分涉及到的内容需要熟练掌握统计和数据挖掘部分知识。后续我会陆续更新
R语言数据建模探索性分析
预测性分析
包括分类(决策树、随机森林、支持向量机等)聚类(K-means等)。使用数据建模不仅仅要知道参数的含义,最好要了解算法的含义。部分算法在我要自学生物信息学专栏中有详解