大数据
SuperWang1993
这个作者很懒,什么都没留下…
展开
-
MapReduce
MapReduce是一种分布式计算模型,由Google提出,解决海量数据运算的问题。它由Map和Reduce两种函数组成。Map即映射,将HDFS或数据库中的信息提取出来,按照key-value的形式输送给Reduce。Reduce即化简,是将Map传送过来的数据按照一定的业务逻辑排序提取,得到输出结果。 MapReduce的执行顺序 Map 1.1读取文件内容,解析成key-valu...原创 2019-05-07 10:37:33 · 1088 阅读 · 0 评论 -
Hadoop-HDFS
所谓HDFS(Hadoop Distributed File System),是一种分布式文件管理系统,通过允许文件在不同电脑之间分享。这种文件系统比较适合大文件的存储。HDFS具有通透性,从程序和上层开发人员看来,就像是访问本地文件一样。HDFS在设计的时候考虑到了容错性,每一份文件在不同的电脑上默认存在3个副本,这样在有些电脑故障的时候,仍然可以正常使用整个系统。 HDFS包...原创 2019-05-07 10:37:53 · 379 阅读 · 0 评论 -
Spark计算模型
Spark计算模型标签(空格分隔): sparkSpark依靠Scala强力的面向函数的编程、Actor通信模式、闭包、容器、泛型,借助统一资源分配调度框架Mesos,融合了MR和dryad,形成了简洁灵活高效的大数据分布式框架。Spark程序模型Created with Raphaël 2.1.0startdata(HDFS等)RDD 1 textFile() 把HDFS中的数据读入RDDRDD原创 2016-06-27 22:03:15 · 798 阅读 · 0 评论 -
spark环境搭建
Spark环境搭建一、准备工作 软件 版本 下载地址 Centos 6.5 https://www.centos.org/download/ VMWare 比较新的版本即可 https://my.vmware.com/cn/web/vmware/downloads JDK 1.7.0_79 http://www.oracle.com/ hadoop原创 2016-06-26 17:24:22 · 500 阅读 · 0 评论