Davina_yu
对Java,Python,数据库,大数据架构,数据分析,报表开发都有涉猎,欢迎技术沟通,付费咨询,接项目,接期末作业,毕业设计,以及帆软报表开发,QuickBI开发项目。 +V 15214301894
展开
-
ambari部署 hadoop 集群
【代码】ambari部署 hadoop 集群。原创 2024-12-20 10:13:49 · 550 阅读 · 0 评论 -
Scala for Eclipse安装配置及spark开发环境搭建
在弹出的窗口中,在 Location 输入框里粘贴提供的 URL: http://download.scala-ide.org/sdk/lithium/e47/scala212/stable/site。这样就完成了 lib 文件夹的创建以及将 Spark JAR 包添加到工程的 classpath 中的过程。在 src 目录下创建一个新的 Scala 类,命名为 SparkWordCount.scala。,以确保该 JAR 包被添加到了项目的 classpath 中。安装完成后,重启 Eclipse。原创 2024-12-13 13:17:22 · 652 阅读 · 0 评论 -
2、ambari集群搭建完整详细步骤(每一步都有实操)
在windows浏览器地址栏中输入。在 master 上执行。在 master 上执行。在 master 上执行。在 master 上执行。在 master 上执行。在 master 上执行。在 master 上执行。原创 2024-12-12 08:51:49 · 344 阅读 · 0 评论 -
3.1 启动 ambari-server报错
启动 ambari-server报错。原创 2024-12-11 16:48:15 · 322 阅读 · 0 评论 -
3、(已亲测所有流程) CM+CDH 安装搭建全过程
新建虚拟机原创 2024-12-09 12:26:30 · 268 阅读 · 0 评论 -
1、新建虚拟机 + 克隆虚拟机 VMware17 + Centos7
选择Linux系统,版本选择centos7;如果自己的电脑是32位就选centos7 32位;如果自己的电脑是64位就选centos7 64位。2)非图形化界面,选择最小安装。勾选开发工具,它会帮你下载一些常用开发工具。选择ISO映像文件,找到自己下载的centos7映像文件,然后确定。安装完成后出现以下界面,输入用户名root和密码后,就是安装成功。选择自定义,以便于安装CentOS7。移除其他不需要的(自己选需要的)设置虚拟机名称,以及安装位置。会自动生成,直接下一步。选择稍后安装操作系统。原创 2024-12-09 11:41:22 · 498 阅读 · 0 评论 -
Spark 安装与配置
在安装Apache Spark之前,需要确保满足以下前提条件。这些条件将帮助你顺利安装和配置Spark,并确保其正常运行。原创 2024-11-09 11:42:55 · 609 阅读 · 0 评论 -
Spark架构
Apache Spark 支持多种运行模式,每种模式都有其特定的使用场景和优势。原创 2024-11-09 11:41:39 · 639 阅读 · 0 评论 -
Spark 介绍
Apache Spark 是一个开源的分布式计算系统,专为大规模数据处理而设计。它最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, and People Lab)开发,并于2010年开源。Spark 的设计初衷是为了克服 Hadoop MapReduce 在处理迭代算法和交互式查询时的局限性,特别是通过内存计算来提高数据处理的速度。原创 2024-11-08 15:03:48 · 860 阅读 · 0 评论 -
大数据概念
大数据是指数据集过于庞大或复杂,以至于传统的数据处理应用软件不足以有效地处理它们。大数据的特点通常被总结为“4VVolume(体量大)、Velocity(速度快)、Variety(多样性)、Veracity(真实性)。工具优点缺点Flume- 高可靠性和容错性- 简单的配置和易于扩展- 支持多种数据源和接收器- 主要适用于日志数据- 对于复杂的ETL操作支持有限Kafka- 高吞吐量和低延迟- 强大的持久性和容错性- 支持实时流处理- 配置和管理相对复杂。原创 2024-11-08 14:24:57 · 437 阅读 · 0 评论 -
Apache Spark 学习路径
什么是Apache Spark?Apache Spark是一个快速的、通用的大规模数据处理引擎。Spark的历史和发展起源于2009年的加州大学伯克利分校AMPLab项目。成为了Apache软件基金会的一个顶级项目。Spark的优势和应用场景内存计算,快速迭代。应用于批处理、交互式查询、流处理、机器学习等。Spark生态系统概览包括Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX等。原创 2024-11-08 10:50:24 · 972 阅读 · 0 评论