大数据开发
文章平均质量分 80
wanger61
这个作者很懒,什么都没留下…
展开
-
【Spark学习笔记】(一)—— Spark 概述和 WordCount
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。原创 2022-11-04 17:04:31 · 814 阅读 · 0 评论 -
【Hadoop学习笔记】(四)——Flume
Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。原创 2022-10-27 17:24:18 · 783 阅读 · 0 评论 -
【Hadoop学习笔记】(三)——Sqoop
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。其原理和 Hive 类似,本质就是通过命令生成 MapReduce 任务,进而去执行数据迁移任务。原创 2022-10-27 15:35:23 · 985 阅读 · 0 评论 -
【Hadoop学习笔记】(二)——Hive的原理及使用
Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。它架构在Hadoop之上,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能为HDFS上的数据提供类似SQL的查询语言(HiveQL),并将SQL语句转变成MapReduce任务来执行。Hive 明显降低了 Hadoop 的使用门槛,任何熟悉 SQL 的用户都可以使用 Hive。Hive 经常用于业务和数据分析,并对存储在 HDFS 上的数据执行特殊查询。原创 2022-10-27 11:29:15 · 1010 阅读 · 0 评论 -
【Hadoop学习笔记】(一)——MapReduce的原理及使用
MapReduce是大数据离线计算的一种处理范式。它的基本概念就是“分而治之”:将单个问题分解成多个独立的子任务,再将子任务的结果汇聚成最终结果。在 MapReduce 中,它会先把样本分成一段段能够令单台计算机处理的规模,然后让多台计算机同时进行各段样本的整理和统计,每执行完一次统计就对映射统计结果进行规约处理,最终完成大规模的数据规约。MapReduce 的含义分为两步:Map 和 Reduce (映射和规约)。上述过程第一阶段的整理工作就是"映射",把数据进行分类和整理,原创 2022-10-25 11:40:51 · 1245 阅读 · 0 评论