数据分析,你是选择R语言还是excel呢?

转载 2016年08月30日 14:10:16

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是Excel,因为这是我熟练掌握的一款工具。三年前,我开始接触到R,一开始因为功能太多而坚决抵制使用。后来我开始琢磨如何使用。现在我基本不怎么使用Excel了。

  这只是我个人的观点,但是如果你要分析数据,R更胜任这项任务。下面来说说为什么R更适合数据分析。

1465571460-4660-2081.jpg

  这两款工具的使用方法截然不同。使用Excel时,可以通过鼠标点击完成大部分工作,你可以访问界面内不同位置的各种工具。因此Excel非常便于使用(熟能生巧),但是用Excel处理数据非常费时,而且如果接手一个新项目,你必须单调地重复这些流程。使用R时,则通过代码完成所有操作。你把数据载入内存,然后运行脚本来研究并处理数据。这个工具可能不够人性化,但是有以下几点好处。

  我认为,从概念上来说,R更便于使用。如果你在处理多列数据,虽然你只是在处理单个任务,但是却会看到所有的数据。而使用R时,数据都在内存中,只有调出数据才能看到。如果你在转换或计算,你会处理相关列或行的子集,其他所有数据都在后台。我觉得这样更便于关注手头的任务。完成任务后,可将其保存在某个数据帧中,其中只包含所需的列或行数据。你建立了正确的数据集,可解决当前的问题。这样做看似无关紧要,但实际上大受裨益。

  借助R,就可以对其他数据集轻松重复相同的操作。因为所有数据都是通过代码进行处理和研究,因此对新的数据集执行相同的操作也就轻而易举了。使用Excel时,大多数操作都是通过鼠标点击实现,虽然用户体验不错,但对新的数据重复操作却非常费时而枯燥。而R只需载入新的数据集,然后再次运行脚本即可。

1465571460-4040-2081.jpg

  实际上,用代码操作也便于诊断并共享你的分析结果。使用Excel时,大多数的分析结果都基于内存(数据透视表在这里,公式编辑器在另一个表格上等)。而在R中,通过代码执行所有操作,一目了然。如果你在修正一个错误,你很清楚在哪里操作,而如果你需要共享分析结果,只需复制粘贴代码即可。在线查找帮助时,你能准确说明所用数据,并提出具体的问题。事实上,大多数时候,你在线提问时,人们都是直接贴出准确的代码,来解决你的问题。

  R中的项目组织更简单。在Excel中,我要准备一系列表格,可能还要准备多个工作簿,然后适当命名,而且各文件名不得重复。我的项目备注分别保存在各个文件中。我的R项目组织单独设有一个文件夹,我处理过的所有内容都放在其中。清理数据、探索性图表及模型。这样便于我理解和查找,也为与我一起工作的其他人提供方便。当然,Excel也能做到井井有条。我觉得R的简洁性更便于使用。

  上述几点只能说是锦上添花,而并不是必不可少。在没有这些功能之前,我也用了好几年Excel,你应该也一样。现在,我想讲讲R和Excel真正的区别。我想说的是,除了以上那些花哨的小优势之外,R更适合用于数据分析。原因如下。

6.jpg

  你可以把任何数据载入R。数据的保存位置或保存形式并不重要。你可以载入CSV文件,也可以读取JSON,或者执行SQL查询,抑或提取网站。你甚至还可以在R中通过Hadoop处理大数据。

  R是一个完整的工具集,使用的是数据包。在分析数据时,R比Excel更实用。你可使用R执行数据管理、分类和回归,也可以处理图片,并执行其他所有操作。如果机器学习是你的专业,那能想到的任何算法都是小菜一碟。目前,R可用的数据包逾5,000个,因此无论你要处理什么类型的数据,R都能应付自如。

  R的数据可视化效果非常卓越。说句实话,Excel的图表非常出色,简单易懂。但R的效果更好。我觉得这是R最实用的功能之一。借助ggplot2,你可以快速创建所需的各种图表,并根据图表形状自行调整。在你熟悉了如何用ggplot2创建一个图表后,任何其他图表都不在话下。ggplot2还能制作更多类型的图表。你能用Excel创建散点图矩阵吗?用R就能轻松创建这种矩阵,CDFplot也是如此。Excel棋差一招。

  Git版本控制。我一向习惯保存多个版本的分析结果。Git是至今为止我找到的最好用的工具。我使用RStudio作为编辑器,其支持项目。创建一个项目仓库,然后你就能跟踪数据研究的不同版本。你可以创建不同版本的Excel文件,但是这些保存的二进制文件无法显示相互之间的更改部分。而R非常简单。

  我已经说了很多理由。总之,Excel是一款不错的数据分析工具。我相信它能不负众望完成所有任务。但是,如果你只有这一款工具,则会大大影响你的工作效率。相比之下,R更好用,而且提供的工具集模块更完整。而缺点在于不是非常易于上手,用户一开始相对要花很多时间学习使用。如果坚持下去,就会有所收获,不仅对数据更了解,还提高了自己的能力。

R语言读取Excel的神器——openxlsx

作为非程序猿的各位同志们,可能最擅长的数据整理软件或者统计软件就是——嗯,没有错,它就是集万千宠爱于一身的E~~~~X~~~~O。 咳咳咳,好了。隆重推出我们的主角——Excel 事实上,...
  • ESA_DSQ
  • ESA_DSQ
  • 2017年03月22日 22:25
  • 4399

R语言读取Excel文件

因为一个项目需要,原始数据全部是Excel文件,包括.xls和.xlsx格式,并且很多excel数据的格式并不规范,一个个转为csv格式不太现实,所以把所有能了解到的读取excel的方法都试了一遍,做...
  • cl1143015961
  • cl1143015961
  • 2015年11月25日 13:34
  • 21052

R语言技巧:读取excel文件

上一期介绍了读取: csv格式 这期介绍读取excel文件。代码如下:library(readxl) dataset ...
  • xxzhangx
  • xxzhangx
  • 2016年11月07日 15:05
  • 1798

R语言之读取Excel及csv数据

R语言读取数据的几种方法,用read.table(),read.xlsx()读取Excel,csv数据
  • xy546268850
  • xy546268850
  • 2017年04月24日 16:22
  • 2037

R语言-数据分析-快速入门方便查询-excel表格形式学习笔记1

序号 函数或调用型式 描述-中文 描述-英文 定义 代码 关键字中文 关键字-英文 1 —— 特点与不同 —— 1.特点: 1-1.向量为基础; 1-2.多条件统计...
  • huangxl1991
  • huangxl1991
  • 2017年05月15日 20:07
  • 375

为什么R语言是学习数据分析的第一选择

数据时代已经到来,但数据分析、数据挖掘人才却十分短缺,据全球顶尖管理咨询公司麦肯锡(McKinsey)一份详细分析报告显示:>>>> 预计到 2018 年,大数据或者数据工作者的岗位需求将激增,其中大...
  • FnqTyr45
  • FnqTyr45
  • 2017年12月15日 00:00
  • 227

为什么说R语言是学习数据分析的第一选择?

数据时代已经到来,但数据分析、数据挖掘人才却十分短缺,据全球顶尖管理咨询公司麦肯锡(McKinsey)一份详细分析报告显示:预计到 2018 年,大数据或者数据工作者的岗位需求将激增,其中大数据科学家...
  • uxiAD7442KMy1X86DtM3
  • uxiAD7442KMy1X86DtM3
  • 2018年01月03日 00:00
  • 204

深入浅出数据分析(一)——MySQL+EXCEL+R统计问卷调查

深入浅出数据分析(一)——MySQL+EXCEL+R统计问卷调查 本篇文章面向对象为小白,大牛扫一眼或看看目录就懂了。 确定问题 分解 分解问题 分解数据 EXCEL刀光霍霍 把数据库内容提取到EXC...
  • sinat_24797831
  • sinat_24797831
  • 2015年07月17日 06:31
  • 2080

数据分析中的Excel、R、Python、SPSS、SAS和SQL

作为一直想入门数据分析的童鞋们来说,如何选定一门面向数据分析的编程语言或工具呢?注意是数据分析,而不是大数据哦,数据分析是基础了。   数据分析的工具千万种,综合起来万变不离其宗。无非是数...
  • willtongji
  • willtongji
  • 2016年10月20日 17:03
  • 3235

数据分析与R语言1-12章电子版图书

  • 2018年01月12日 21:08
  • 12.59MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据分析,你是选择R语言还是excel呢?
举报原因:
原因补充:

(最多只允许输入30个字)