hadoop
文章平均质量分 76
发量不足
耐心,自信来源于你强大的思想和知识基础
展开
-
[hadoop全分布部署]Hive组件安装配置①
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥原创 2023-03-29 11:05:32 · 556 阅读 · 8 评论 -
[hadoop全分布部署]安装Hadoop、验证Hadoop①
一、配置hadoop格式化二、查看 Java 进程三、查看 HDFS 的报告原创 2022-12-18 10:46:30 · 11432 阅读 · 199 评论 -
[hadoop全分布部署]安装Hadoop、配置Hadoop 配置文件②
一、配置 core-site.xml 文件参数二、配置 mapred-site.xml (Mapreduce参数)三、配置 yarn-site.xml原创 2022-12-05 12:42:42 · 12203 阅读 · 197 评论 -
[hadoop全分布部署]安装Hadoop、配置Hadoop 配置文件①
安装Hadoop、配置Hadoop 配置文件一、配置hadoop-env.sh文件二、配置 hdfs-site.xml 文件参数原创 2022-11-26 22:22:55 · 13575 阅读 · 217 评论 -
[hadoop全分布部署]虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录
虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录原创 2022-11-25 10:47:52 · 3500 阅读 · 65 评论 -
[hadoop全分布部署]虚拟机Hadoop集群配置/etc/hosts、配置无密码登录(SSH)
改IP地址、改MAC地址、改主机名vi /etc/sysconfig/network-scripts/ifcfg-ens33192.168.196.101对应master192.168.196.102对应slave1192.168.196.103 对应slave2原创 2022-11-17 09:54:46 · 5271 阅读 · 113 评论 -
[Hadoop全分布部署]安装JDK、Hadoop
JDK全称Java Development Kit 中文意思是Java 开发工具包即java标准版开发包,是Oracle提供的一套用于开发java应用程序的开发包,它提供编译,运行java程序所需要的各种工具和资源,包括java编译器,java运行时环境,以及常用的java类库等。JRE Java Runtime Environment(JRE) Java运行环境Java运行环境,它的全称Java Runtime Envi原创 2022-11-08 15:32:45 · 6137 阅读 · 131 评论 -
[Hadoop全分布部署]配置网络(IP、网关和DNS等)和防火墙
配置网络(IP、网关和DNS等)和防火墙1.1 查看服务器的 IP 地址1.2 设置服务器ip地址1.3 重启网络1.4 pingwww.baidu.com看是否能联网1.5 修改服务器的主机名称1.6 绑定主机名与 IP 地址1.7 关闭防火墙1.8 创建hadoop用户原创 2022-10-25 23:01:12 · 7279 阅读 · 75 评论 -
[Spark、hadoop]Spark Streaming整合kafka实战
Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点:其优点具体:(1)解耦。Kafka 具备消息系统的优点,只要生产者和消费者数据两端遵循接口约束,就可以自行扩展或修改数据处理的业务过程。(2)高吞吐量、低延迟。即使在非常廉价的机器上,Kafka也能做到每秒处理几十万条消息,而它的延迟最低只有几毫原创 2022-10-14 10:57:40 · 3755 阅读 · 86 评论 -
[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每个微批就是一个RDD2、DStream由一系列连续的RDD组成,每个RDD都包含来自特定间隔的数据3、DStream本质上就是一系列时间上连续的RDD(DStream = Seq[RDD])原创 2022-10-12 10:29:10 · 6998 阅读 · 63 评论 -
[Spark、hadoop]spark Streaming的核心DStream
1.SparkStreaming提供了一个高级抽象的流,即DStream(离散流)。2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。原创 2022-10-03 14:12:39 · 2310 阅读 · 114 评论 -
[平台运维、Hadoop]Spark Streaming 实时计算框架
在大数据技术中,有离线计算、批量计算、实时计算以及流式计算,其中,离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架,且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理,并具有很好的可扩展性、高吞吐量和容错性。原创 2022-10-02 14:25:22 · 1763 阅读 · 8 评论 -
[平台运维、Hadoop]kafka streams概述
Kafka Streams是Apache Kafka开源项目的一个流处理框架,它是基于Kafka的生产者和消费者,为开发者提供了流式处理的能力,具有低延迟性.高扩展性、高弹性、高容错性的特点,易于集成到现有的应用程序中。KafkaStreams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据可以重新写回Kafka,也可以发送给外部存储系统。原创 2022-10-01 09:56:52 · 1748 阅读 · 14 评论 -
Kafka分布式发布订阅消息系统
大数据系统面临的首要困难是海量数据之间该如何进行传输。Kafka、RabbitMQ、ActiveMQ等,Kafka 是专门为分布式高吞吐量系统而设计开发的,它非常适合在海量数据集的应用程序中进行清息传递。Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。原创 2022-09-10 22:54:29 · 2161 阅读 · 12 评论 -
DataFrame基础知识
DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)Select:col:某一列,as:重命名 filter:过滤groupBy() ,对记录进行分组sort排序。,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive表等数据源。DataFrame提供了两种语法风格,1 DSL风格语法,2 SQL语法风格。DataFrame:除了提供比RDD更丰富的算子外,更重要的特点是。,DataFrame可以完成RDD的绝大多数功能。原创 2022-08-22 20:44:44 · 5375 阅读 · 15 评论 -
Spark的任务调度
DAG(Direted Aeyelie Grph,有向无环图)Sprk中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。原创 2022-08-20 14:29:29 · 1241 阅读 · 1 评论 -
RDD的分区、依赖关系、机制
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值。(3) Mesos 模式:默认的分区数是8.Spark框架为RDD提供了两种分区方式,分别是哈希分区(HashPartitioner)和范围分区(RangePartitioner)。Spark也支持自定义分区方原创 2022-08-17 13:35:05 · 2448 阅读 · 9 评论 -
RDD的处理过程
RDD经过一些列的“转换”操作,每一次转换都会产生不同的RDD,以供给下一次“转换”操作使用,直到最后一个RDD经过“行动”操作才会被真正计算处理,并输出到外部数据源中,若中间的数据结果需要复用,则可以进行缓存处理,将数据缓存到内存中。注意:RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作。......原创 2022-08-15 21:17:49 · 740 阅读 · 48 评论 -
Spark RDD弹性分布式数据集
RDD(Resilient Distributted Dataset,弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并且含能够控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,需要计算时,则可以直接从内存中读取,从而极大地提高计算速度。......原创 2022-08-14 10:39:39 · 553 阅读 · 15 评论 -
集群模式执行Spark程序(第七弹)
打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...原创 2022-08-11 23:18:37 · 885 阅读 · 15 评论 -
添加spark的相关依赖和打包插件(第六弹)
可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)原创 2022-08-09 22:37:29 · 3954 阅读 · 13 评论 -
IDLE开发wordCount程序(第五弹)
以本地模式执行spark程序原创 2022-08-08 22:07:48 · 704 阅读 · 16 评论 -
体验第一个spark程序(第四弹)
先启动spark集群或者启动hdfs集群,如果之前有开启,则需要重新关闭再开启spark集群或者启动hdfs集群。以客户端模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。以集群模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。在standalone模式下,连接到指定spark集群,默认端口号是7077。在spark目录下启动spark服务(未停止的,先停止在启动)启动Hadoop服务(未停止的,先停止在启动)遇到不能创建问题是因为。...原创 2022-08-07 11:54:45 · 1735 阅读 · 23 评论 -
spark集群部署(第三弹)
(1)spark.deploy.recoveryMode=ZOOKEEPER:设置zookeeper去启用备用master模式(2)spark.deploy.zookeeper.url=master:指定zookeeper的server地址(3)spark.deploy.zookeeper.dir:保存集群元数据信息的文件和目录原创 2022-08-04 20:57:38 · 8598 阅读 · 18 评论 -
搭建Spark开发环境(第二弹)
😊😊😊欢迎来到本博客😊😊😊本篇介绍的是Spark环境的准备🛠🛠🛠预更新📑:体验第一个Spark程序一.环境准备二·.spark的部署方式三.spark集群安装部署一.环境准备配置环境:Hadoop、spark(本人是2.0.0)、JDK(1.8)、Linux(Centos6.7)二·.spark的部署方式spark部署模式分为Local模式和集群模式,在local模式,常用于本地开发与测试,集群模式又分为standalone。.........原创 2022-08-02 20:57:17 · 1907 阅读 · 32 评论 -
搭建Spark开发环境
spark集群基础环境配置:export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin环境配置:export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin原创 2022-07-31 21:27:30 · 655 阅读 · 15 评论 -
Spark的概念、特点、应用场景
Spark于2000年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。它是基于内存计算的大数据并行计算框架🎈🎈🎈Spark生态系统主要包含SparkCore.SparkSQL.SparkStreamingMIlibGraphX以及独立调度器介绍SparkCoreSpark核心组件,它实现了Spark的基本功能。SparkSQL用来操作结构化数据的核心组件在处理结构化数据时,开发人员无须编写MapReduce程序....原创 2022-07-31 00:02:08 · 7218 阅读 · 4 评论 -
Scala的模式匹配与样例类
Scala 提供了强大的模式匹配机制,最常见的模式匹配就是mateh语句,主要应用于从多个分支中进行选择的场景。不仅如此,Secala还提供了样例类,它可以对模式匹配进行优化,提高匹配的速率。原创 2022-07-29 20:04:37 · 854 阅读 · 2 评论 -
Scala面向对象的特征
Scala是一种面向对象的语言,并且运行在JVM中。原创 2022-07-29 19:58:00 · 653 阅读 · 11 评论 -
Scala的数据结构(步入家门)
Scala中的数组分为定长数组和变长数组,这两种数组的定义方式如下newArray[T](数组长度)//定义定长数组//定义变成数组。原创 2022-07-19 10:19:22 · 777 阅读 · 26 评论 -
test3
test3原创 2022-07-01 09:49:44 · 279 阅读 · 1 评论 -
Scala的基础语法(小试牛刀)
目录一.声明值和变量二.数据类型三.算术和操作符重载四.控制结构语句五.方法和函数一.声明值和变量Scala有两种类型的变量:使用关键字var声明的变量,值可以变的 使用关键字val声明的变量,值不可以变的#注意二.数据类型三.算术和操作符重载四.控制结构语句在Scala中,控制结构语 句包括条件分支语句和循环语句条件分支:循环语句:从0循环到9每一次循环打印输出(“0 to 9”表示从0...原创 2022-03-19 20:53:56 · 608 阅读 · 6 评论