大数据
文章平均质量分 70
花菜回锅肉
这个作者很懒,什么都没留下…
展开
-
hadoop dfs web页面访问增加鉴权
装好了Hadoop,通过浏览器访问,发现竟然不需要鉴权就能访问,且暴露了很多服务器层文件路径信息,基于多年积累的安全意识,必须得配置些鉴权信息,就有了该文,仅做学习记录,下次自己再装时能提高效率。原创 2024-01-09 19:18:41 · 465 阅读 · 0 评论 -
Spark开发学习之RDD编程
Spark开发学习之RDD编程什么是RDDRDD(Resilient Distributed Dataset)是分布式数据集,是Spark设计里最为核心的概念。在RDD出来之前,所有的分布式批处理计算系统都是从存储中读取数据到计算完成后将结果写入存储的模型,这种计算模型在处理数据集迭代运算时效率不高,为了解决这一问题,RDD应运而生。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2kjsbB89-1626070161978)(spark-structure.png)]原创 2021-07-12 14:15:20 · 310 阅读 · 0 评论 -
Spark开发学习之使用idea开发Spark应用
Spark学习之使用idea开发Spark应用该文章是基于jdk1.8,idea开发工具,maven都配置好的前提下进行讲述的。背景由于已经在远程centos服务器上部署了saprk服务,但基于spark的应用程序的代码却是在本地idea开发的,那么如何能让本地开发的spark代码能在远程spark服务上运行调试便成了迫切需要解决的问题。idea下scala插件安装idea开发工具,File->setting->Plugins->Browse respositories,搜索sc原创 2021-07-09 15:05:04 · 1963 阅读 · 0 评论 -
Spark开发学习之Scala环境搭建
Spark开发实战之Scala环境搭建Scala和Spark关系是,spark是用scala语言开发的。若想使用Scala开发Spark下的应用程序,并编译运行,则需要配置Scala开发环境,否则可以先不用装,后续用到时再装。概述Scala是一门多范式编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上,可以兼容现有的Java程序。Scala源代码被编译成Java字节码,并可以调用现有的Java类库。语法既然是一门编程语言,那必然会有自己的语法,具体不再原创 2021-07-08 12:34:28 · 621 阅读 · 0 评论 -
Spark3.1.2单机安装部署
spark3.1.2 单机安装部署概述Spark是一个性能优异的集群计算框架,广泛应用于大数据领域。类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析,而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种:复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理Spark技术栈基本可以解决以上三种场景问题。下载下载原创 2021-07-08 11:44:25 · 3577 阅读 · 3 评论 -
Hadoop3.2.1安装-单机模式和伪分布式模式
Hadoop入门篇概述Hadoop是使用Java编写的,是为了解决大数据场景下的两大问题,分布式存储和分布式处理而诞生的,包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS 和 MapReduce两个组件。下载安装下载下载地址 https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop是Java开发的,所以依赖jdk运行,要先安装jdkHadoop和jdk版本对应关系原创 2021-07-06 16:09:26 · 792 阅读 · 0 评论