![](https://img-blog.csdnimg.cn/20210323160626988.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
进击的橘子猫正式改名上线,欢迎大家关注我的微信公众号。我会定期在公众号与CSDN分享大数据的知识与应用。
进击的橘子猫
这个作者很懒,什么都没留下…
展开
-
大数据平台搭建(一) - Ubuntu 18.04中Hadoop组件的版本与安装顺序
简介目前在学习大数据的基础知识,希望能与机器学习与数据挖掘进行更好的融合。最近花费了一段时间,在自己的虚拟机中安装了Ubuntu 18.04并搭建了Hadoop伪分布式平台。在平台中安装了几个核心的组件。这篇文章主要记录一下安装的版本与顺序,希望能给也需要安装的人提供一些建议。后续会陆续将搭建的过程一步步写出来留作知识积累。环境介绍主机环境:Windows 10虚拟软...原创 2019-03-15 11:41:14 · 1316 阅读 · 0 评论 -
3.4.1 大数据、Hadoop以及Hadoop生态的概念与区别
简介大数据是现如今兴起的名词,提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系?一句话解释版本:大数据是与传统数据仓库相对应的概念,它是一种理念与方法。Hadoop是与Oracle、Teradata相对应的概念,它是实现大数据理念的手段与工具。Hadoop是一...原创 2019-03-27 15:24:55 · 967 阅读 · 0 评论 -
3.4.1 MapReduce - 概念、框架、运行机制
简介MapReduce(分布式计算框架)始于Google的MapReduce论文,发表于2004年12月。 MapReduce用于计算海量数据。它将计算抽象成Map 和Reduce两部分。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。在如下MapReduce的官网中,有对MapReduce的详细描述,针对最新版本,如果想找某一特定版本(如Hadoop 2.7.7...原创 2019-04-01 13:35:40 · 341 阅读 · 0 评论 -
3.4.1 HDFS(分布式文件系统) - 概念、架构、运行机制、配置文件与命令
简介作为Hadoop生态中核心的组件,HDFS在Hadoop项目最初就已经存在。HDFS始于 Google 在2003年10月份发表的GFS(Google File System)论文。 它其实就是 GFS 的一个克隆版本。但是经过这些年的发展,HDFS的架构和功能基本固化,并成为一个完善的核心组件。在如下HDFS的官网中,有对HDFS的详细描述,针对我装的版本(Hadoop 2.7.7)...原创 2019-03-29 10:24:47 · 685 阅读 · 0 评论 -
3.4.1 Spark RDD - 概念与简单理解
简介Spark是一个计算引擎,是MapReduce的高配升级版本。Spark RDD是Spark中的核心理念。Spark RDD概念Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。RDD的全称为Resilient Distribu...原创 2019-04-09 14:10:16 · 523 阅读 · 0 评论