![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 75
郎er
我是郎儿,博客当笔记用的。
展开
-
flink(二):DataStreamAPI和状态管理
flink(二):DataStreamAPI和状态管理Stream(DataStreamAPI)参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/datastream_api.htmlDataSource:数据源数据源是程序读取数据的来源。用户可以通过StreamExecutionEnvironment.addSource(sourceFunction)将数据源添加到程序中。Flink提供了很多的sourceF原创 2021-08-15 14:56:19 · 261 阅读 · 0 评论 -
Flink(一):flink安装入门和运行架构
Flinkflink是什么?Apache Flink是2014年12月份诞生的一个基于内存流计算引擎。ApacheFlink是一个用于在无界和有界数据流上进行有状态计算的框架和分布式处理引擎。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。Flink 特点可以处理有界和无界数据流。可以运在任何位置。(第三方资源管理器yarn,k8s等 和 自带资源管理器)以任何规模运行应用程序随处部署应用程序命令执行远程部署图形界面(比较常用的)充分利用内存性能原创 2021-08-15 14:46:36 · 347 阅读 · 0 评论 -
Spark(五):Spark Streaming
文章目录一、简介二、总结2.1.数据的读取:2.1.数据的计算:2.3.数据的写出:三、简单应用之从不同数据源读取数据进行计算然后输出:3.1从LINUX的一个端口中使用nc发送数据,然后读取3.2从hadoop10的HDFS文件系统上读取3.3从Kafka读取数据四、work在工作的时候 Executor从哪个分区中拿数据进行计算五、DStream中的状态转换`updateStateByKey`一、简介Spark处理的是批量的数据(离线数据),Spark Streaming实际上是对接的外部数据流之后原创 2021-08-11 21:23:36 · 245 阅读 · 0 评论 -
Spark(四):Spark整合Hive
首先在Hive中建好表 加载好数据create table t_user(id int,name string,age int)row format delimited fields terminated by '\t';load data local inpath '/opt/user.log' into table t_user;在命令行访问HiveSpark 要接管 Hive 需要把 hive-site.xml copy 到spark/conf/目录下• 把 Mysql 的驱原创 2021-08-10 22:20:10 · 181 阅读 · 0 评论 -
Spark(三): Spark SQL | DataFrame、DataSet、RDD转换 | SQL练习
文章目录Spark SQL一、Spark SQL概述1.什么是DataFrame2.什么是DataSet二、Spark SQL编程1.DataFrame1.1 创建DataFrame1.2 SQL风格语法 [重点]1.3 DSL风格语法1.4 RDD转换为DataFrame1.5 DataFrame转换为RDD2.DataSet2.1 创建DataSet2.2 RDD转换为DataSet2.3 DataSet转换为RDD3.DataFrame和DataSet的互操作3.1 DataFrame转换为Dat.原创 2021-08-10 22:17:20 · 247 阅读 · 0 评论 -
Spark(二):Spark的RDD
Spark(二):Spark的RDDSpark 程序,一般都包含一个Driver Program用于运行main函数,在该函数中执行着各种各样的并行操作。其中在Spark中有重要的概念RDD。该RDD是一个带有分区的分布式数据集,将数据分布存储在Spark集群的各个节点。当对RDD做任何操作,该操作都是并行的。RDD特点RDD Represents an immutable, partitioned collection of elements that can be operated on in原创 2021-08-08 13:36:18 · 367 阅读 · 0 评论 -
Spark的Driver节点和Executor节点
1.驱动器节点(Driver)Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动 Spark shell的时候,系统后台自启了一个 Spark 驱动器程序,就是在Spark shell 中预加载的一个叫作 sc 的 SparkContext 对象。如果驱动器程序终止,那么Spark 应用也就结束了。Driver在spark作业执行转载 2021-08-08 11:28:27 · 1411 阅读 · 0 评论 -
Spark(一):基础简介安装和入门
Spark 基础一、Spark的介绍1.定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2.Spark VS MapReduceSpark的诞生仅仅是为了替换早期的Hadoop的MapReduce计算引擎。Spark并没有存储解决方案,在Spark的架构中,底层存储方案依然延续Hadooop的HDFS/Hbase.由于Hadoop的MapReduce是大数据时代出现的第一类大数据分析工具,因为出现比较早仅仅为了满足大数据计算的刚性需求(能够做到对大数据的计算,并且可以保证在一原创 2021-08-04 23:04:52 · 269 阅读 · 0 评论 -
scala的高阶函数(算子)
scala的高阶函数(算子)scala简介1.Scala是一门多范式的静态类型编程语言,Scala支持【面向对象】和【函数式编程】2.Scala源代码(.scala)会被编译成java字节码(.class),然后运行在JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接Scala匿名函数知识补充:1.不需要写def 函数名2.不需要写返回类型,使用类型推导3.= 变成 =>4. 如果有多行则使用{}包括,否则建议省略 //普通的函数 def test1(v原创 2021-08-04 22:48:29 · 599 阅读 · 0 评论 -
开窗函数(分析函数)使用详解
开窗函数简介开窗函数:在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在 2003 年 ISO SQL 标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决。目前在 MSSQLServer、Oracle、DB2 等主流数据库中都提供了对开窗函数的支持,MySQL8.0支持。 5.7 --> 8.0开窗函数简介:与聚合函数一样,开窗函数也是对行集组进行聚合计算,但是它不像普通聚合函数那样每组只返回一个原创 2021-08-01 23:31:25 · 11873 阅读 · 6 评论 -
hdfs的checkpoint及namenode故障恢复
Hdfs中 nameNode的持久化相关# 1. HDFS接受客户端的文件操作后。# 2. 先将操作的命令 以日志的方式记录到editslog中。# 3. 然后再将指令对应的文件元数据的修改操作,修改内存中的元数据信息。# 4. SNN定期负责将editslog中的文件合并到fsimage中。Hdfs的checkPoint机制SecondaryNameNode向NameNode发起合并请求NameNode将当前的Editslog文件保存改名edits,并新建EditsLog继续持久原创 2021-08-01 16:27:32 · 591 阅读 · 0 评论 -
Hive内部表外部表相互转换
内部表与外部表转换区别就不用多说了代码如下create table tablePartition(s string) partitioned by(pt string);alter table tablePartition add if not exists partition(pt='1');alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='TRUE'); //内部表转外部表alter table tableParti原创 2021-07-31 00:51:22 · 288 阅读 · 0 评论 -
kafka安装和学习使用
Kafka的学习和使用本文是基于CentOS 7.3系统环境,进行Kafka的学习和使用Kafka0 Kafka基本概念(1) 什么是KafkaKafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域>(2) 消息队列点对点模式的消息队列对一个消息而言,只会有一个消费者可以消费,消费者主动拉取消息,消息收到后,会将消息删除基于发布/订阅模式的消息队列发布到topic的消息会被所有订阅者消;费,消费者消费完消息后不会删除消息队列主动推送适用于消费者处理原创 2021-07-25 09:18:14 · 637 阅读 · 1 评论 -
Patition By 总结
Hive中Patition By 使用1.创建分区表 添加数据数据源文件# 文件"bj.txt" (china bj数据)1001,张三,1999-1-9,1000.01002,李四,1999-2-9,2000.01008,孙帅,1999-9-8,50000.01010,王宇,1999-10-9,10000.01009,刘阳,1999-9-9,10.0# 文件“tj.txt” (china tj数据)1006,郭德纲,1999-6-9,6000.01007,胡鑫,1999-7-9,原创 2021-07-19 10:01:36 · 206 阅读 · 0 评论 -
Kafka和ZK集群一键启动关闭
Kafka和ZK集群 脚本每台虚拟机都要启动关闭 太麻烦了shell脚本 一键启动 关闭 他不香吗?上脚本→注意:启动脚本的虚拟机要配置免密登录到到另外的虚拟机包括本机也要配置Zookeeper 一键启动 关闭 查看状态注:自行配置命令路径 没有配置环境变量就用绝对路径,就不用source刷新#! /bin/bash case $1 in "start"){ #!hadoop11 hadoop12 hadoop13主机映射主机名 自行配置 for i in had原创 2021-07-16 20:50:02 · 369 阅读 · 5 评论 -
Flume入门必看
Flume一、概述本文参考原文链接1.Flume定义Flume是Cloudera提供的一个海量日志采集、传输的系统。Flume基于流式架构,灵活简单。2.Flume优点① 可以和任意存储进程集成② 输入的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。③ flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。 Flume使用两个独立的事务分别负责从source到channel,以及从原创 2021-07-15 19:28:53 · 275 阅读 · 2 评论 -
HDFS伪分布式和分布式安装搭建
HDFS伪分布安装服务器准备# 1. 准备虚拟机hadoop10# 1. 设置hostname hostnamectl set-hostname hadoop10# 2. 配置hosts(linux+windows) vim /etc/hosts ----------以下是文件信息------------ 192.168.199.8 hadoop10 补充: 一定要配置windows对集群中所有节点的映射关系。# 3. 关闭防火墙原创 2021-07-13 16:44:08 · 198 阅读 · 0 评论 -
Yarn伪分布式和分布式安装
Yarn介绍# 概念 是MapReduce代码的运行环境,为mapreduce提供所需资源分配调度。 Yarn-分布式资源调度器(CPU 内存) 监控管理调度多个服务器上的计算资源-CPU 内存等。 伪分布式安装① 准备HDFS集群环境[root@hadoop10 ~]# jps2224 Jps2113 SecondaryNameNode1910 DataNode1806 NameNode② 初始化Yarn相关配置文件# 1. mapred-site.xml(m原创 2021-07-13 16:53:55 · 210 阅读 · 0 评论 -
Zookeeper +Hadoop HA
1. zookeeper引言简介Apache ZooKeeper是Apache软件基金会的一个软件项目,大数据集群服务器的管理者协调者。简言:ZK就是一个管理多个服务(集群分布式环境下)的通知机制 Watcher+文件系统ZNode 文件系统:保存少量,服务器相关的配置文件信息。Watcher 监听通知机制:注册监听服务器的上下线。特点zk集群中的数据内容,完全一致。zk作为集群管理者,天生不存在单点问题。zk的主机是动态选举出来的。应用场景2. 集群安装原创 2021-07-13 17:05:19 · 419 阅读 · 0 评论 -
Hive安装和学习
HiveHive 引言简介hive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目(hive.apache.org)。 hive是一个基于大数据技术的数据仓库(DataWareHouse)技术,主要是通过将用户书写的SQL语句翻译成MapReduce代码,然后发布任务给MR框架执行,完成SQL 到 MapReduce的转换。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。总结Hive是一个数据仓库Hive构建在HDFS上,可以存储海量数据。原创 2021-07-13 17:25:10 · 346 阅读 · 3 评论