《R与Hadoop大数据分析实战》一第1章 R和Hadoop入门

本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第1章,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 R和Hadoop入门

第1章讲述了几个与R和Hadoop基本知识相关的主题,包括:
R的安装、功能和数据建模
Hadoop的安装、特征和组成部分
前言已介绍了R和Hadoop。本章将重点关注了解并使用这两种技术。到目前为止,R主要用于统计分析,但由于功能和程序包越来越多,在其他一些领域内,它也很受欢迎,例如机器学习、可视化和数据操作。R不能加载所有数据(大数据)到机器内存。所以,可以选择Hadoop把数据用作大数据加载。不是所有的算法都能在Hadoop中运行,而且在一般情况下,这些算法并不属于R算法。尽管如此,使用R语言进行分析还是在某些方面与大数据相关。为了分析数据集,R将这些数据集加载到内存中,如果数据集很大,它会因出现意外而加载失败,这些意外如“无法分配大小为x的矢量”。因此,为了处理大数据集,R的处理能力可以通过与Hadoop集群结合而大大提高。Hadoop是时下非常流行的框架,它能提供这样并行的处理能力。因此,我们可以通过使用R算法或Hadoop集群的分析处理过程完成工作。
image

设想有这样一个集合化的RHadoop系统:R将通过如数据加载、探索、分析和可视化等原始功能来进行数据分析,同时Hadoop将采取并行数据存储并对分布式数据进行计算。
在具有价格优势的大数据技术出现之前,分析通常是在一台机器的有限的数据集上运行。先进的机器学习算法在应用到大型数据集中时能够高效运作,条件是其能够与运用分布式数据存储系统进行数据存储和加工的大型数据集群结合。下一节将介绍如何在不同的操作系统中安装R和Hadoop及如何连接R和Hadoop。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值