大数据
文章平均质量分 90
大数据技术相关文章
我想养只猫 •͓͡•ʔ
Coder
展开
-
Hadoop生态&组件部署大总结
准备下载地址Apache参考源中科大开源软件镜像https://mirrors.ustc.edu.cn/apache/清华大学开源软件镜像站https://mirrors.tuna.tsinghua.edu.cn/apache/Apache 官方提供镜像https://dlcdn.apache.org/| Sqoop已不再被 Apache 维护,需要下载请前往GitHub,请参考 快捷下载 内地址快捷下载HADOOPhttps://mirrors.us原创 2021-11-23 10:35:15 · 13810 阅读 · 0 评论 -
基于VM搭建伪分布式Hadoop
筹备参考Centos镜像下载:http://mirrors.aliyun.com/centos/7/isos/x86_64/Hadoop下载:https://hadoop.apache.org/releases.htmlJDK下载:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.htmlVM下载:https://www.vmware.com/products/workstation-pro/workstat原创 2021-11-23 10:34:28 · 14734 阅读 · 0 评论 -
Docker + Hadoop 搭建完全分布式
阅读本文需要一定的 Linux 基础,不适合新手,仅提供思路系统部署参考Docker 下载:https://docs.docker.com/desktop/windows/install/Docker 安装:https://www.runoob.com/docker/windows-docker-install.html部署 Centos7Docker 国内源参考源中科大网易源阿里镜像(建议)进入管理控制台 --> 产品与服务 --> 弹性计算 -->.原创 2021-11-23 10:33:40 · 15206 阅读 · 0 评论 -
MapReduce 原理与实践
MapReduce 简介MapReduce 核心思想Hadoop MapReduce 是一个编程框架,它可以轻松地编写应用程序,以可靠的、容错的方式处理大量的数据(数千个节点)。正如其名,MapReduce 的工作模式主要分为 Map 阶段和 Reduce 阶段。一个 MapReduce 任务(Job)通常将输入的数据集分割成独立的块,这些块被 map 任务以完全并行的方式处理。框架对映射(map)的输出进行排序,然后将其输入到 reduce 任务中。通常,作业的输入和输出都存储在文件系统中。框架负原创 2021-11-23 10:32:05 · 22936 阅读 · 1 评论 -
Hive 快速入门与平台搭建 | 结合Mysql
Hive介绍Apache Hive 是一款基于 Hadoop 的数据仓库软件Hadoop 为商品硬件上的数据存储和处理提供了大规模扩展和容错能力. Hive 的设计目的是为了方便地进行数据的汇总、临时查询和大量数据的分析它支持 SQL 语句,因此用户可以在 Hive 中进行一些特殊的查询、汇总和数据分析. 同时,Hive 的 SQL 也为用户提供了诸如用户定义函数(UDF)的特性来支持自定义的分析.总体而言, Hive 通过在分布式存储中支持 SQL ,能够简化对大数据的查询、分析和管理工作,它还提原创 2021-11-23 10:29:26 · 14293 阅读 · 0 评论 -
【两万字总结】Spark安装部署与入门
Spark 介绍核心概念Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HDFS,更适用于需要迭代的 MapReduce 算法场景中,可以获得更好的性能提升。例如一次排序测试中,对 100TB 数据进行排序,Spark 比 Hadoop 快三倍,并且只需要十分之一的机器。Spark 集群目前最大的可以达到 8000 节点,处理的数据达到 PB 级别,在互联网企原创 2021-11-23 10:28:31 · 15773 阅读 · 4 评论 -
带你快速进阶:HDFS架构与操作
HDFS 简介HDFS 架构如同其名称,HDFS (Hadoop Distributed File System)是 Hadoop 框架内进行分布式存储的组件,具有容错性和可扩展性。HDFS 可以作为 Hadoop 集群的一部分,也可以作为独立的通用分布式文件系统。例如, HBase 就建立在 HDFS 之上,而 Spark 也可以将 HDFS 作为数据源之一。学习 HDFS 的架构和基本操作,对于特定集群的配置、改进和诊断将会有较大的帮助。HDFS 是 Hadoop 应用程序主要使用的分布式存储,原创 2021-11-23 10:26:59 · 15154 阅读 · 0 评论 -
【亲测】Hadoop 高可用集群搭建 与 开发环境部署
每一次 Hadoop 生态的更新都是如此令人激动像是 hadoop3x 精简了内核,spark3 在调用 R 语言的 UDF 方面,速度提升了 40 倍所以该文章肯定得配备上最新的生态hadoop 生态简介期待目标环境OS :CentOS 7.4组件:Hadoop 3x 及生态YarnMapreduceHDFSZookeeper 3.6.3可选项HiveFlume 1.9Sqoop 2kafka 2xSpark 3xRD.原创 2021-11-23 10:24:30 · 14709 阅读 · 0 评论