R语言简介与案例

R语言简介与案例

(本文为一次向计算机零基础人群演讲时,应要求所写演示内容)

一. R语言是什么?

 

如果说统计学是人类历史上的一次伟大跨越,那么R语言就是就是帮助统计学家走的更远的一双翅膀.R语言是什么?R语言就是一门帮助统计学家在计算机上进行数学计算的语言,有了它统计学家就可以与计算机更好地互动,并帮助统计学家更快更好的完成本专业的一些事情.

不过随着时代的发展,R语言作为一门计算机语言,也已经不仅仅能够完成它的最初使命.同时现在的它还能够完成许多的其他事情比如网络爬虫等等

 

二. 如何使用R语言?

R语言的使用十分简单.对于一般常用公式,R语言都已经做好了封装,将其封装在了内部.也就是说R语言已经将很多常用的数学公式写好了,对于数学中的各种函数与方法,在R中我们也给他们的计算机实现起了同样的名字”函数”.

 

比如假如我们在R中使用卡方检验来检验两个变量的相关性,那么只需要简单的调用”chisq.test()”函数就可以了.

 

举个例子,我们使用R中自带的卡方检验函数对R语言中自带的数据

上述结果表明数据集有很多因素变量,可以被认为是分类变量。 对于我们的模型,我们将考虑变量“AirBags”和“Type”。 在这里,我们的目标是找出所售的汽车类型和安全气囊类型之间的任何显着的相关性。 如果观察到相关性,我们可以估计哪种类型的汽车可以更好地卖什么类型的气囊。

 

文中的前三行代码是从R语言中自带的数据库挑选出了汽车类型与安全气囊这两个数据,然后将其展示给了我们,而最后一行代码则使用”chisq.test()”函数对数据进行了卡方检验

 

从这里我们可以看出,对于使用R语言中的函数可以说是相当的简单了.

 

三. 在R语言中实现皮尔逊系数

 

皮尔逊系数是检验变量之间线性相关性的一种常用方法,虽然R语言中已经有了相关实现,不过这里我们将要自己实现一下.

 

首先我们来确认皮尔逊系数的一种实现方式,下面的这个公式十分简单,只要能够使用R语言中的求均值,求和,开平方等基本操作就可以了.

 

 

 

通过上面的这些操作,我们已经在R语言中是实现了皮尔逊系数的公式.如果有需要的话我们也可以将这个公式封装为我们自己的函数.只需要使用一条简单的语句声明即可.

 

现在我们已经拥有一个我们自己的函数了.

 

四. 使用R中的包

包是什么?

刚刚我们封装了我们自己的一个函数,而假如我们想要将我们自己的函数提供给别人使用,我们就需要将他们变成另外一种形式,也是就是包.

 

通过将我们自己的一些程序打成包发出去,就可以让别人使用我们的包.同样的我们也可以通过下载包的形式使用别人已经做好的包.这样我们都可以减少很多不必要的工作.也正因如此假如我们需要使用某一个R语言自身没有带的数学公式的时候,我们就可以去下载一些别人制作的包.这样一来,我们就不需要自己做一些重复造轮子的事情了.

 

而同样的在R中下载和使用包也是十分简单的.只需要”install.packages(“包名”)”即可.比如假如我们想要在R语言中使用随机森林算法.那么只需要

然后执行即可.

 

下面我们就在R语言中进一步利用randomForest 进行进一步实战.

 

(1) 随机森林randomForest 的语言

 

语法为--->  randomForest(formula, data)

以下是所使用的参数的描述 - 

 

其中:formula是描述预测变量和响应变量的公式。data是所使用的数据集的名称

(2) 选择数据

我们将使用名为readingSkills的R语言内置数据集来创建决策树。 它描述了某人的readingSkills的分数,如果我们知道变量“age”,“shoesize”,“score”,以及该人是否是母语。

以下是示例数据。

(3) 然后我们开始使用R语言中的随机森林算法对数据建模预测

 

(4) 结论:从上面显示的随机森林,我们可以得出结论,鞋码和成绩是决定如果某人是母语者或不是母语的重要因素。 此外,该模型只有1%的误差,这意味着我们可以预测精度为99%。

 

五.安装问题

(1)win下请到官网下载exe安装文件,直接安装即可,R语言镜像目录,Rstudio

(2)Ubuntu下R与Rstudio的安装与配置

 

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
R语言经典实例(中+英) 第1章 R入门和获得帮助 7   1.1 下载和安装R软件 8   1.2 开始运行R软件 10   1.3 输入R命令 13   1.4 退出R 15   1.5 中断R正在运行的程序 16   1.6 查看帮助文档 17   1.7 获取函数的帮助文档 18   1.8 搜索帮助文档 20   1.9 查看R软件包帮助信息 21   1.10 通过网络获取帮助 23   1.11 寻找相关函数与数据包 26   1.12 查询邮件列表 27   1.13 向邮件列表提交问题 27   第2章 基础知识 30   2.1 显示内容 30   2.2 设定变量 32   2.3 列出所有变量 34   2.4 删除变量 35   2.5 生成向量 36   2.6 计算基本统计量 37   2.7 生成数列 40   2.8 向量比较 42   2.9 选取向量中的元素 43   2.10 向量的计算 46   2.11 运算符优先级问题 48   2.12 定义函数 50   2.13 减少输入,得到更多命令 52   2.14 常见错误 54   第3章 R软件导览 58   3.1 获取和设定工作目录 58   3.2 保存工作空间 59   3.3 查看历史命令记录 60   3.4 保存先前命令产生的结果 60   3.5 显示搜索路径 61   3.6 使用R包中的函数 62   3.7 使用R的内置数据集 64   3.8 查看已安装的R包列表 65   3.9 从CRAN网站安装R包 67   3.10 设定默认CRAN网站镜像 69   3.11 隐藏启动信息 70   3.12 运行脚本 70   3.13 批量运行R代码 71   3.14 获取和设定环境变量 74   3.15 找到R的主目录 75   3.16 R的客户化 76   第4章 输入与输出 80   4.1 使用键盘输入数据 81   4.2 显示更少的位数(或更多的位数) 82   4.3 将输出结果重定向到某一文件 84   4.4 显示文件列表 85   4.5 解决无法在Windows中打开文件的问题 86   4.6 阅读固定宽度数据记录 87   4.7 读取表格数据文件 88   4.8 读取CSV文件 90   4.9 写入CSV文件 92   4.10 从网络中读取表格或CSV格式数据 93   4.11 读取HTML表格数据 94   4.12 读取复杂格式数据文件 96   4.13 读取MySQL数据库中的数据 100   4.14 保存和传送目标 102   第5章 数据结构 104   5.1 对向量添加数据 111   5.2 在向量中插入数据 112   5.3 理解循环规则 113   5.4 构建因子(即分类变量) 115   5.5 将多个向量合并成单个向量以及平行因子 117   5.6 创建列表 118   5.7 根据位置选定列表元素 119   5.8 根据名称选定列表元素 121   5.9 构建一个名称/值关联表 122   5.10 从列表中移除元素 124   5.11 将列表转换为向量 125   5.12 从列表中移除取值为空值(即NULL)的元素 126   5.13 使用条件来移除列表元素 127   5.14 矩阵初始化 129   5.15 执行矩阵运算 130   5.16 将描述性名称赋给矩阵的行和列 131   5.17 从矩阵中选定一行或一列 132   5.18 用列数据初始化数据框 133   5.19 由行数据初始化数据框 134   5.20 添加行至数据框 136   5.21 预分配数据框 137   5.22 根据位置选择数据框的列 138   5.23 根据列名选定数据框的列 142   5.24 更便捷地选定行和列 143   5.25 修改数据框的列名 145   5.26 编辑数据框 146   5.27 从数据框中移除NA值 148   5.28 根据名称排除列 149   5.29 合并两个数据框 150   5.30 根据共有列合并数据框 151   5.31 更便捷地访问数据框内容 152   5.32 基本数据类型之间的转换 154   5.33 不同结构化数据类型间的转换 156   第6章 数据转换 159   6.1 向量分组 160   6.2 将函数应用于每个列表元素 161   6.3 将函数应用于每行 163   6.4 将函数应用于每列 164   6.5 将函数应用于组数据 166   6.6 将函数应用于行组 168   6.7 将函数应用于平行向量或列表 170   第7章 字符串和日期 172   7.1 获取字符串长度 174   7.2 连接字符串 175   7.3 提取子串 176   7.4 根据分隔符分割字符串 176   7.5 替代子串 178   7.6 查看字符串中的特殊字符 179   7.7 生成字符串的所有成对组合 179   7.8 得到当前日期 181   7.9 转换字符串为日期 181   7.10 转换日期为字符串 182   7.11 转化年、月、日为日期 183   7.12 得到儒略日期 185   7.13 提取日期的一部分 185   7.14 创建日期序列 187   第8章 概率 189   8.1 计算组合数 191   8.2 生成组合 192   8.3 生成随机数 193   8.4 生成可再生的随机数 194   8.5 生成随机样本 196   8.6 生成随机序列 197   8.7 随机排列向量 198   8.8 计算离散分布的概率 198   8.9 计算连续分布的概率 200   8.10 转换概率为分位数 201   8.11 绘制密度函数 203   第9章 统计概论 206   9.1 汇总数据 208   9.2 计算相对频数 210   9.3 因子制表和列联表创建 211   9.4 检验分类变量独立性 212   9.5 计算数据集的分位数(和四分位数) 212   9.6 求分位数的逆 213   9.7 数据转换为z分数 214   9.8 检验样本均值(t检验) 215   9.9 均值的置信区间 216   9.10 中位数的置信区间 217   9.11 检验样本比例 218   9.12 比例的置信区间 219   9.13 检验正态性 220   9.14 游程检验 222   9.15 比较两个样本的均值 223   9.16 比较两个非参数样本的位置 225   9.17 检验相关系数的显著性 226   9.18 检验组的等比例 228   9.19 组均值间成对比较 229   9.20 检验两样本的相同分布 230   第10章 图形 232   10.1 创建散点图 234   10.2 添加标题和标签 236   10.3 添加网格 237   10.4 创建多组散点图 238   10.5 添加图例 240   10.6 绘制散点图的回归线 242   10.7 多变量散点图的绘制 243   10.8 创建每个因子水平的散点图 244   10.9 创建条形图 246   10.10 对条形图添加置信区间 248   10.11 给条形图上色 249   10.12 绘制过点x和y的线 251   10.13 改变线的类型、宽度或者颜色 253   10.14 绘制多个数据集 254   10.15 添加垂直线和水平线 256   10.16 创建箱线图 257   10.17 对每个因子水平创建箱线图 258   10.18 创建直方图 259   10.19 对直方图添加密度估计 261   10.20 创建离散直方图 262   10.21 创建正态Q-Q图 264   10.22 创建其他Q-Q图 265   10.23 用多种颜色绘制变量 266   10.24 绘制函数 269   10.25 图形间暂停 270   10.26 在一页中显示多个图形 271   10.27 打开另一个图形窗口 273   10.28 在文档中绘制图形 274   10.29 改变图形参数 275   第11章 线性回归和方差分析 277   11.1 简单线性回归 279   11.2 多元线性回归 281   11.3 得到回归统计量 282   11.4 理解回归的汇总结果 286   11.5 运行无截距的线性回归 289   11.6 运行有交户项的线性回归 290   11.7 选择最合适的回归变量 292   11.8 对数据子集回归 295   11.9 在回归公式中使用表达式 296   11.10 多项式回归 298   11.11 转换数据的回归 299   11.12 寻找最佳幂变换 301   11.13 回归系数的置信区间 304   11.14 绘制回归残差 304   11.15 诊断线性回归 306   11.16 识别有影响的观察值 309   11.17 残差自相关检验 310   11.18 预测新值 311   11.19 建立预测区间 312   11.20 运行单因素方差分析 313   11.21 创建交互关系图 315   11.22 找到组间均值的不同 316   11.23 执行稳健方差分析 318   11.24 运用方差分析比较模型 320   第12章 有用的方法 323   12.1 查看你的数据 323   12.2 拓宽你的输出 324   12.3 输出赋值结果 325   12.4 对行和列求和 325   12.5 按列输出数据 326   12.6 对数据分级 328   12.7 找到特定值的位置 329   12.8 每隔n个选定一个向量元素 330   12.9 找到成对的最小值或者最大值 331   12.10 生成多个因子的组合 332   12.11 转换一个数据框 333   12.12 对数据框排序 334   12.13 对两列排序 335   12.14 移除变量属性 336   12.15 显示对象的结构 337   12.16 代码运行时间 340   12.17 抑制警告和错误消息 341   12.18 从列表中提取函数参数 342   12.19 定义你自己的二元运算符 344   第13章 高级数值分析和统计方法 347   13.1 最小化或者最大化一个单参数函数 347   13.2 最小化或者最大化多参数函数 348   13.3 计算特征值和特征向量 350   13.4 主成分分析 351   13.5 简单正交回归 352   13.6 数据的聚类 354   13.7 预测二元变量(逻辑回归) 357   13.8 统计量的自助法 359   13.9 因子分析 361   第14章 时间序列分析 366   14.1 表示时间序列 367   14.2 绘制时序图 370   14.3 提取最老的观测值或者最新的观测值 373   14.4 选取时间序列的子集 374   14.5 合并多个时间序列 376   14.6 缺失时间序列的填充 378   14.7 时间序列的滞后 380   14.8 计算逐次差分 381   14.9 时间序列相关的计算 382   14.10 计算移动平均 383   14.11 在日历时间范围内应用函数 384   14.12 应用滚动函数 386   14.13 绘制自相关函数图 388   14.14 检验时间序列的自相关 389   14.15 绘制偏自相关函数 390   14.16 两个时间序列间的滞后相关性 391   14.17 剔除时间序列的趋势 393   14.18 拟合ARIMA模型 394   14.19 剔除ARIMA模型中不显著的系数 397   14.20 对ARIMA模型进行诊断 399   14.21 用ARIMA模型进行预测 400   14.22 均值回归的检验 402   14.23 时间序列的平滑 404

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Font Tian

写的很好,请给我钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值