大数据
文章平均质量分 86
-小末
这个作者很懒,什么都没留下…
展开
-
Spark任务中Task数量确定和一些总结
Spark任务中Task数量如何确定?原创 2022-07-20 11:18:31 · 4889 阅读 · 2 评论 -
Hadoop3.x入门-SparkThriftServer部署
1.前言SparkThriftServer,简称STS,作为SparkSQL的JDBC/ODBC服务,启动了STS服务后,就可以使用代码程序通过JDBC/ODBC的接口提交Spark SQL。STS对标的是Hive的HiveServer2,其中代码内部实现也大量参考了HiveServer2。STS计算引擎为Spark,而HiveServer2默认对应的MapReduce,因此STS的任务的计算速度要比HiveServer2快很多(10-100倍),...原创 2022-05-15 22:07:36 · 1573 阅读 · 0 评论 -
Hadoop3.x入门-Spark3.x部署
1.前言Spark集群模式包括:Local,Standalong,Yarn,Kubernetes,但在生产环境中Spark On Yarn是主流。其中,Spark提供计算服务,Yarn提供资源调度能力。本文介绍如何部署Spark3.1.3 On Yarn,这种模式下,Spark没有集群的概念,而是作为一个客户端组件向Yarn提交自定义Jar包程序任务,只有提交任务的时候才会启动相关Spark进程,任务结束所有Spark进程将会结束,所以只需要将Spark相关配置配好并部署到hadoop集群中任意一个原创 2022-05-14 21:05:03 · 1435 阅读 · 0 评论 -
Hadoop3.x入门-Hive3.x部署
1.前言安装Hive 3.1.2版本对应的Hadoop3.x,也就是Hive On MapReduce , Hive类似于Hadoop集群的一个客户端,本身没有集群的概念。简单来说Hive的功能就是可以将SQL转化成MR的任务,从而简化了MR的开发。 本文在Hadoop3.x入门-搭建3节点Hadoop HA集群Hadoop集群的基础上,3台节点中选择其中一台搭建Hive。2.前置条件JDK1.8,一个Hadoop集群(Yarn和MapRedu...原创 2022-04-05 14:45:43 · 3444 阅读 · 0 评论 -
Hadoop3.x入门-搭建3节点Hadoop HA集群
1.前言本文档适合3节点的Hadoop 高可用(HA:High Available)测试集群集群的搭建。在上一篇文章中《Hadoop3.x入门-搭建3节点分布式集群》只是一个简单的测试的分布式集群,并不是高可用的,也就是说当namenode或者resourcemanager节点挂掉,hadoop的功能就无法使用了,所以无法应用到生产环境中。本文在上一篇的基础上修改一些配置,将Hadoop集群改造为高可用集群。如果用上一篇文章搭建的集群,首先关闭集群所有进程,删除$HADOOP_HOME/data原创 2022-04-04 01:52:03 · 3429 阅读 · 0 评论 -
Hadoop3.x入门-搭建3节点分布式集群
1.前言本文档适用于Hadoop3.x版本分布式测试集群搭建。HDFS组件包括:NameNode、DataNode、SecondaryNameNodeYarn组件包括:ResourceManager、NodeManager、JobHistoryMapReduce组件包括:JobHistoryServer2. 集群搭建前提条件关闭防火墙 确保集群主机节点时间同步(可以安装ntp服务保持集群时间同步) 集群间配好免密,包括免密本地登录(不配置有可能导致namenode和nodeman原创 2022-02-09 19:06:57 · 2721 阅读 · 0 评论 -
编译大数据组件几个常用的maven远程仓库
最近编译各种大数据组件源码,各种包找不到,于是搭建了一个nexus,把下面几个常用的maven远程仓库地址都加上去。记录一下:1.http://maven.aliyun.com/nexus/content/groups/public2.https://repo1.maven.org/maven2/3.http://packages.confluent.io/maven/4.http://conjars.org/repo5.https://repository.jboss.org.原创 2020-09-07 09:27:42 · 418 阅读 · 0 评论 -
Amazon S3 Java API测试用例
一、Amazon S3基本概念桶 :是s3存储对象的容器。用bucket表示,简单的理解就是一个玩具桶,可以装玩具。 对象:对象是 Amazon S3 中存储的基本实体。简单理解就是玩具桶中的玩具。 键:键是指存储桶中对象的唯一标识符。简单理解就是玩具的名字。 区域:AWS 区域供 Amazon S3 存储您创建的存储桶。简单理解在桶内很多区域,你要在哪个区域放你的玩具。更多概念:https://docs.aws.amazon.com/zh_cn/AmazonS3/latest/dev/In..原创 2020-11-17 16:14:29 · 2118 阅读 · 0 评论