前言
在大数据时代,R语言以其强大的统计分析和可视化能力,成为数据科学领域的重要工具。如果你想快速入门R语言并掌握数据分析的核心技能,这篇文章将带你从基础到进阶,全面了解R语言的应用场景、函数使用及实践案例。无论你是数据分析初学者还是希望提升技能的专业人士,这篇文章都值得你收藏!
一、为什么选择R语言?
R语言是一种专为统计分析和数据可视化设计的高级脚本语言。它因以下特点而备受欢迎:
开源免费:R语言是完全开源的,拥有庞大的用户社区和丰富的扩展包。
功能强大:不仅支持基础统计分析,还支持机器学习、数据挖掘和高级可视化。
易于上手:语法简洁易懂,适合初学者快速入门。
在数据分析生命周期的各个阶段(从数据准备到模型评估),R语言都扮演着重要角色。
二、R语言入门:基础操作
1. 环境准备
在开始使用R之前,你需要安装以下工具:
R语言本体:从R语言官网下载安装。
RStudio:一款功能强大的R语言集成开发环境,支持脚本编写、图形展示及数据管理。
进入RStudio后,你会看到以下几个核心区域:
脚本区域:编写和运行代码。
控制台(Console):实时执行R命令。
绘图区域(Plots):展示图形结果。
环境区域(Environment):管理变量和数据集。
2. 数据导入与导出
导入数据
R支持多种数据格式的导入,例如CSV文件、Excel表格等。以下是导入CSV文件的基本代码:
# 导入CSV文件
sales <- read.csv("c:/data/yearly_sales.csv")
# 查看数据集前几行
head(sales)
# 查看数据摘要
summary(sales)
导出数据
将处理后的数据导出为文件:
# 添加每次订单的平均销售额列
sales$per_order <- sales$sales_total / sales$num_of_orders
# 导出为Tab分隔的文本文件
write.table(sales, "sales_modified.txt", sep="\t", row.names=FALSE)
3. 数据类型与属性
数据属性(NOIR模型)
数据可以分为以下四种属性:
名义型(Nominal):分类数据,例如性别。
有序型(Ordinal):有顺序但无固定间距,例如评级(好、中、差)。
区间型(Interval):有固定间距但无绝对零点,例如温度。
比例型(Ratio):有固定间距且有绝对零点,例如身高、体重。
数据类型
R中的基本数据类型包括:
数值型(Numeric):例如i <- 1。
字符型(Character):例如sport <- “football”。
逻辑型(Logical):例如flag <- TRUE。
使用以下代码可检查变量类型:
class(i) # 返回 "numeric"
typeof(sport) # 返回 "character"
4. 向量和矩阵
向量(Vector)
向量是R中最基本的数据结构,所有元素必须属于同一类型:
# 创建一个字符向量
u <- c("red", "yellow", "blue")
# 创建一个数值向量
v <- 1:5
# 向量运算
w <- v * 2 # 返回 2 4 6 8 10
z <- v + w # 返回 3 6 9 12 15
向量 – R中数据的基本构建块 – 简单的R变量实际上是向量 – 只能由同一类别的值组成
# Vectors
is.vector(i) # returns TRUE
is.vector(flag) # returns TRUE
is.vector(sport) # returns TRUE
u <- c("red", "yellow", "blue") # create a vector "red" "yellow" "blue"
u # returns "red" "yellow" "blue"
u[1] # returns "red" (1st element in u)
v <- 1:5 # create a vector 1 2 3 4 5
v # returns 1 2 3 4 5
sum(v) # returns 15
w <- v * 2 # create a vector 2 4 6 8 10
w # returns 2 4 6 8 10
w[3] # returns 6 (the 3rd element of w)
z <- v + w # sums two vectors element by element
z # r