1.R语言介绍

📋 个人简介
💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者
📙 个人主页:W_chaunqi
😀 支持我:点赞👍+收藏⭐️+留言📝
💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨

在这里插入图片描述

R语言介绍

1 R的起源与发展

  • R语言是从S语言演变而来的解释型语言。
  • S语言是二十世纪70年代诞生于贝尔实验室。
  • 1995年新西兰奥克兰大学统计系的Ross Ihaka和Robert Gentleman编写了一种能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。
  • R是对S语言的继承与发展。R系统是开源、免费的,由R开发核心小组负责其开发及维护。
  • R语言是彻底面向对象的统计编程语言。
  • R语言可在多种操作系统上运行,如Windows、MacOS,多种Linux和UNIX等。
  • R需要输入命令,可以编写函数和脚本进行批处理运算,语法简单灵活。
  • 目前在R网站上有上万个程序包,涵盖了基础统计学、社会学、经济学、生态学、地理学、医学统计学、生物信息学等诸多方面。
  • R语言是一种开源的脚本语言,在数据分析与预测,以及数据可视化等方面享有良好的声誉。

1.1 R的特点

  • 适用于统计计算和机器学习
  • 简单易学,具有高度的灵活性
  • 支持高质量的图形和强大的可视化功能
  • 代码形式简洁

1.2 人工智能的研究领域

  • 迁移学习 (Transfer Learning)
  • 联邦学习 (Federated Learning)
  • 机器学习 (Machine Learning)
  • 数据挖掘 (Data Mining)
  • 自动规划 (Automated Planning)
  • 深度学习 (Deep Learning)
  • 自然语言处理 (Natural Language Processing)
  • 计算智能 (Computational Intelligence)

1.3 数据分析

  • K-means k均值算法
  • Logistic regression analysis 逻辑回归分析
  • Decision tree 决策树
  • Principal component analysis 主成分分析
  • Multiple regression analysis 多重回归分析
  • Statistical hypothesis testing 统计假设检验
  • Histogram 柱状图
  • Cross tabulation 交叉制表

1.4 数据分析步骤

image-20220822201512587

1.4.1 数据采集

数据采集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,第二手数据主要指经过加工整理后得到的数据。一般数据来源主要有以下几种方式,如图所示。

数据库:每个公司都有自己的业务数据库,存放从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要有效地利用起来。

公开出版物:可以用于收集数据的公开出版物包括〈中国统计年鉴〉《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。

互联网:随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站等上面都可能有我们需要的数据。

市场调查:进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。市场调查就是指运用科学的方法,有目的、有系统地收集、记录、整理有关市场营销的信息和资料,分析市场情况,了解市场现状及其发展趋势,为市场预测和营销决策提供客观、正确的数据资料。市场调查可以弥补其他数据收集方式的不足,但进行市场调查所需的费用较高,而且会存在一定的误差,故仅作参考之用。

1.4.2 数据存储/数据处理

Mr.林:数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。

数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。

image-20220822205810643

一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。

1.4.3 数据统计/数据分析
  • 数据统计:使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果。
  • 数据分析:是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。

image-20220822222905256

1.4.4 数据挖掘

数据挖掘(Data Mining, DM)又称为资料勘探、数据采矿。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘其实是一种高级的数据分析方法。

数据挖掘就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。

数据分析与数据挖掘的本质是一样的,都是从数据里面发现关于业务的知识。

image-20220822223220285

1.4.5 数据可视化/数据展现

一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图、帕雷托图等。

大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。记住,在一般情况下,能用图说明问题的就不用表格,能用表格说明问题的就不用文字。

1.4.6 数据决策/撰写报告

数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。所以,数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。

一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。

另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。

最后,好的分析报告一定要有建议或解决方案。作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方案,以便他们在决策时作参考。所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。

1.5 R语言处理的图形

复式条形图

image-20220822223544302

堆积条形图

image-20220822223628833

水平条形图

image-20220822223835432

棘状图

image-20220822223910994

散点图

折线图

image-20220822224441897

基本箱线图

image-20220822224805688

带凹口箱线图

image-20220822224928255

小提琴图

image-20220822225047477

饼图

image-20220822225246863

直方图

核密度图

image-20220822225936018

误差条形图

星图

image-20220822230327164

雷达图

image-20220822230412782

2 安装与运行R系统

2.1 R的获取和安装

  • The Comprehensive R Archive Network 简称CRAN,(R综合典藏网),CRAN主网站设在奥地利的维也纳技术大学。
    • 提供下载安装程序和相应软件包
      • https://cran.r-project.org/
      • http://www.r-project.org/
  • 选择相应的操作系统,如果使用Windows系统,可以点击“Download R for Windows”。
  • 选择安装风格,建议选择基本安装。
  • 点击“Download”下载安装程序 。
  • 下载好后双击 exe 文件进行安装,安装好后在“开始”菜单里可以找到R程序,点击即可运行。

2.2 运行R

RGUI

在Windows的“程序”选项中找到相应的R程序,例如“R 4.2.1”,点击执行

image-20220823075956869

3 R语言的集成开发环境RStudio

集成开发环境(Integrated Development Environment,IDE),是一个集代码编辑器、调试器、图形用户界面等一系列工具为一体的应用程序许多优秀的IDE都将开发所需的主要功能集成在一个桌面环境中,大大提高了生产效率使用IDE的优点包括:

  • 节省时间和精力
  • 统一代码
  • 标准完善的调试环境

3.1 RStudio

Rstudio是一个免费的R语言IDE

它具有语法高亮、命令补全、对象浏览、语法错误检查以及断点调试等功能,可以大大提高开发效率

Rstudio可以在https://www.rstudio.com/获取,选择对应的系统平台进行下载安装

默认情况下窗口被分成如下四个区域:

  • ① 代码编辑、数据预览窗口;
  • ② 工作空间、命令历史;
  • ③ 控制台;
  • ④ 文件浏览、绘图、包管理等。

3.2 Rstudio的下载与安装

image-20220823100554266

image-20220823100740855

image-20220823100837139

3.3 R Commander

  • R语言能否像SPSS那样菜单化操作?当然是可以的——借助R语言图形界面R commander即可实现。
  • R commander是一个交互式菜单/对话框系统,由John Fox教授编写,用于数据的读写、转换、统计分析以及绘图。
  • 其工作原理是:通过菜单的对话框,将命令发送给RGui以完成相应工作。操作命令同时会在窗口中显示,以便于修改;修改后的命令可通过“运行”按钮再次提交RGui执行。
> install.packages("Rcmdr", dependencies=TRUE)
> library(Rcmdr)

3.4 其他R语言集成开发环境IDE

StatET

StatET 是一个基于Eclipse的开源R集成开发环境。它提供了许多用于R编码和包构建的成熟工具,包括一个完全集成的R控制台、代码编辑器、调试器、对象浏览器、文档编写工具和帮助系统。

Rattle

Rattle是一个基于R语言编写的为数据挖掘服务的图形用户界面(GUI),使用gnome做为图形用户界面。它是the R Analytical Tool To Learn Easily的简写,它可以将所有的操作生成相应的R脚本,非常适合用于R语言数据分析的学习。

4 安装与使用包

4.1 什么是包?

  • 包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。
  • R中的包存储在计算机上名为library的目录下,使用函数 .libPaths () 可以查看该文件夹在计算机中的具体路径,函数 library () 和 search () 则可分别显示已安装和加载的包列表。
  • R已经预装了一组标准的包,其他包则可以通过下载安装来使用。http://cran.r-project.org/web/packages
  • 目前CRAN上提供了上万个可使用的包。
  • R语言的扩展包包括社会上各行各业多个领域的数据,金融数据,社交网络数据,生物数据,购物网站数据,环境数据,机器学习等

4.2 包的下载

包的下载地址

https://cran.r-project.org/web/packages/

image-20220823102011383

4.3 包的安装

1.联网时,用命令方式: install.packages(“ape”),选择镜像后,程序将自动下载并安装程序包。

2.直接找到包的下载地址,将数据包下载到本地,手动安装。

image-20220823200518322

Window平台下程序包为zip文件,安装时不要解压缩

3.R界面菜单程序包——安装程序包——选择镜像——选择包

image-20220823200554289

4.4 包的载入

包的安装过程:指的是从某个CRAN镜像站点下载包并将其放入库中的过程。

包的载入:指的是将外存中的包文件载入到内存的过程。

命令方式:

library()

以stringr包为例,执行library (“stringr”)可将对应的包载入

> library ("stringr") #载入字符串处理包stringr
> str_length ("Hello R!") 
> [1] 8

菜单方式

R界面菜单

程序包——加载程序包——选择包

5 R语言的帮助系统

5.1 查看帮助文档

查看帮助文件

最常用的方法:

1 菜单 帮助>Html帮助

2 查看pdf帮助文档(从程序包下载页面下载)

查看帮助文档(RStudio中)

> help.start() 
如果什么都不发生的话,你应该自己打开‘http://127.0.0.1:20920/doc/html/index.html’

image-20220823201744005

5.2 查看一个函数的功能

> help("sum")    or    > ?  sum

image-20220823201931681

5.3 查看一个函数的示例

> example("mean")

image-20220823202105272

5.4 demo()函数的使用

demo(graphics)

image-20220823202245250

image-20220823202305789

5.5 查看包的信息

> library(help="base")

image-20220823202452872

5.6 查看一个包的相关信息

> help(package="ggplot2")

image-20220823202936365

5.7 R语言常用帮助函数

1 help(“t.test”) #获得扩展包的信息

2 ? t.test #获得扩展包的信息

3 help.search(“t.test”) #以t.test为关键词搜索本地帮助文档

4 example(mtcars) #数据集mtcars的使用示例

5 data() #列出当前已经加载包中所含的所有可用示例数据集

6 RGui>Help>Html help

7 在数据包下载页面查看R包pdf手册

6 工作空间管理

  • 工作空间(workspace)就是当前的R工作环境,它存储着所有用户定义的对象(向量、矩阵、函数、数据框、列表)

  • 在一个R会话结束时,你可以将当前工作空间保存到一个镜像中,并在下次启动R时自动载入它。

  • 当前工作目录(working directory)是R用来读取文件和保存结果的默认目录。

  • R提供了一些管理工作空间的函数

  • 利用这些函数可以方便地完成目录、对象与包的管理

函 数说 明
getwd ()显示当前工作目录
setwd ()修改当前工作目录
ls ()显示当前工作空间中的所有对象
str ()显示对象的结构
ls.str ()显示对象中每一个变量的结构
exists ()当前工作空间内是否存在某个对象
rm ()删除一个多或多个对象
q ()退出R。在这之前会询问是否保存工作空间
install.packages ()安装包
library ()载入包

7 R语言自带基本数据集简介

在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下。那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢?

好在R语言提供了很多的基本数据集,这些基本数据集是可以直接加载、可以完成几乎所有的数据分析任务模拟数据的。这都是些哪些种类的数据呢?

这些基本数据集都在R包 datasets 里面,可以执行命令:

> data(package="datasets")

image-20220823222047241

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

W_chuanqi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值