![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
code@fzk
这个作者很懒,什么都没留下…
展开
-
Flink-CDC-快速入手(MySQL为例)
官方文档地址上面所用的反序列化器是自带的String字符串序列化器我们可以自定义反序列化器,实现//1.创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment . getExecutionEnvironment();原创 2022-09-13 16:28:45 · 2190 阅读 · 0 评论 -
Flink-CEP快速入门
所谓 CEP,其实就是“复杂事件处理(Complex Event Processing)”的缩写;而 Flink CEP,就是 Flink 实现的一个用于复杂事件处理的库(library)把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;然后基于这些满足规则的一组组复杂事件进行转换处理,得到想要的结果进行输出。原创 2022-09-09 17:09:30 · 938 阅读 · 0 评论 -
大数据技术目录
HadoopHadoop环境安装HDFS的详细使用MapReduce的详细使用Yarn的详细使用Zookeeper的简单使用Kafka的详细使用Flume的详细使用Sqoop的简单使用HBase的详细使用Hive的详细使用SparkSpark部署SparkCore环境准备SparkSQL的简单使用SparkStreaming的简单使用FlinkFlink的详细使用Flink-TableAPI&SQL快速上手Azkaban的简单使用ClickHouse的详细使用原创 2021-04-13 17:04:28 · 402 阅读 · 0 评论 -
Flink-TableAPI&SQL快速上手
0. 程序流程1. 创建表环境2. 创建表连接器表(Connector Tables)虚拟表(Virtual Tables)3. 表的查询执行 SQL 进行查询调用 Table API 进行查询4. 输出表5. 表和流的相互转换流转换成表(fromDataStream)调用 fromDataStream 方法调用 fromChangelogStream ()方法调用 createTemporaryView() 方法表转换成流调用 toDataStream() 方法原创 2022-09-06 16:03:03 · 899 阅读 · 0 评论 -
Flink-DataStream快速上手
Flink的详细使用1. 安装部署安装第一步:将 flink-1.10.1-bin-scala_2.12.tgz 上传到服务器中并解压缩第二步:修改 conf/flink-conf.yaml 文件# 修改 jobmanager.rpc.address 参数,修改为 jobmanager 的机器jobmanager.rpc.address: hadoop151第三步:修改 conf/slaves 文件# slave 机器hadoop152hadoop153第四步:将原创 2021-10-11 16:24:21 · 932 阅读 · 0 评论 -
Kafka的详细使用
kafka详细使用(从安装到程序开发详细使用)原创 2021-08-20 17:26:27 · 1624 阅读 · 0 评论 -
HBase的详细使用
HBase文章目录HBase1、安装2、shell命令基本操作表的操作数据的操作3、API准备环境表操作API(DDL)判断表是否存在创建表删除表创建命名空间数据操作API(DML)插入数据获取数据(get)获取数据(scan)删除数据MapReduce环境准备官方案例自定义Hbase-MapReduce将 HDFS 中的数据写入到 Hbase 表中(打成jar包上传到服务器运行)将一张表中的部分数据通过 MR 迁入到另一张表中(在本地运行)4、优化高可用预分区(四种方式)基础优化1、安装第一步:原创 2021-08-09 19:11:11 · 1698 阅读 · 0 评论 -
Yarn的详细使用
Yarn文章目录Yarn1、常用命令查看任务(yarn application)查看日志(yarn logs)查看尝试运行的任务(yarn applicationattempt)查看容器(yarn container)查看节点状态(yarn node)查看队列(yarn queue)2、生产环境核心参数3、Yarn 案例实操Yarn 生产环境核心参数配置案例容量调度器多队列提交案例公平调度器案例1、常用命令查看任务(yarn application)列出所有 Applicationyarn a原创 2021-08-09 19:10:37 · 507 阅读 · 0 评论 -
MapReduce的详细使用
MapReduce文章目录MapReduce1、常用数据序列化类型2、编程规范(三个阶段)Mapper阶段Reducer阶段Driver阶段3、编程环境准备4、简单案例(单词统计)5、序列化序列化概述自定义 bean 对象实现序列化接口(Writable)步骤程序(序列化接口)6、InputFormat 数据输入TextInputFormat(默认)CombineTextInputFormat7、Shuffle 机制Partition 分区自定义Partitioner步骤Job驱动类 示例分区总结Writ原创 2021-08-09 19:10:05 · 1353 阅读 · 0 评论 -
HDFS的详细使用
HDFS文章目录HDFS1、Shell 操作上传下载直接操作(和Linux命令功能一样)2、API 操作准备工作文件上传文件下载修改文件名称删除文件和目录文件详情查看文件和文件夹判断修改参数方法参数优先级1、Shell 操作上传-moveFromLocal:从本地剪切粘贴到 HDFShadoop fs -moveFromLocal 本地文件 HDFS目录-copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去hadoop fs -copyFromLocal 本地文件原创 2021-08-09 19:09:36 · 511 阅读 · 0 评论 -
Hadoop环境安装
Hadoop分布式环境文章目录Hadoop分布式环境0、前期准备创建普通用户ssh免密登录1、分布式基本环境搭建集群部署规划环境搭建步骤启动集群2、配置历史服务器和日志的聚集环境搭建启动3、集群启动/停止方式总结各个模块分开启动/停止(配置ssh 是前提)各个服务组件逐一启动/停止4、编写 Hadoop 集群常用脚本Hadoop 集群启停脚本查看三台服务器 Java 进程脚本5、常用端口号说明6、高可用环境搭建(HA)集群规划配置 HDFS-HA 集群配置Zookeeper集群配置 HDFS-HA 集群配原创 2021-08-09 19:09:17 · 163 阅读 · 0 评论 -
Flume的详细使用
Flume文章目录Flume1、简介2、快速入门安装3、配置及简单使用配置source配置(常用)sink配置(常用)channel配置(常用)使用监控端口数据到控制台(netcat-memeory-logger)实时监控单个追加文件到控制台(exec-memeory-logger)实时监控单个追加文件到HDFS(exec-memeory-hdfs)实时监控目录下多个新文件(spooldir-memory-hdfs)实时监控目录下的多个追加文件(taildir-memory-hdfs)Flume对接Kaf原创 2021-08-09 19:08:49 · 1473 阅读 · 0 评论 -
ClickHouse的详细使用
ClickHouse文章目录ClickHouse1、安装2、数据类型整型浮点型布尔型Decimal 型字符串时间类型数组3、表引擎TinyLog(不适用)Memory(不适用)MergeTree(推荐)手动合并二级索引数据 TTLReplacingMergeTreeSummingMergeTree4、SQL 操作5、副本配置步骤6、分片集群简介3 分片 2 副本共 6 个节点集群配置配置三节点版本集群及副本1、安装第一步:修改 /etc/security/limits.conf 文件并同步到其他服原创 2021-08-09 19:07:58 · 913 阅读 · 0 评论 -
Azkaban的简单使用
Azkaban文章目录Azkaban1、安装集群部署规划安装步骤一、配置MySQL二、配置Executor Server三、配置Web Server2、Work Flow 案例执行单个作业依赖自动失败重试3、Azkaban 进阶JavaProcess 作业类型条件工作流运行时参数预定义宏案例邮件报警1、安装集群部署规划hadoop151hadoop152hadoop153Web Server√Executor Server√√√安装步骤一、配置My原创 2021-08-09 19:07:09 · 592 阅读 · 0 评论 -
Hive的详细使用
Hive文章目录Hive1、Hive安装部署安装Hive安装MySQLHive元数据配置到MySQL访问Hive的方式使用元数据服务的方式访问 Hive使用 JDBC 方式访问 HiveHive 常见属性配置运行日志信息配置打印 当前库 和 表头2、Hive 数据类型基本数据类型集合数据类型类型转化3、DDL 数据定义数据库数据表4、DML 数据操作数据导入(五种)数据导出清除表中的数据(truncate)5、查询普通查询排序全局排序(order by)每个Reduce内部排序(Sort By)分区(Di原创 2021-08-09 19:11:25 · 472 阅读 · 0 评论 -
Presto的环境安装
Presto文章目录Presto1、安装Server安装命令行Client安装可视化Client安装1、安装Server安装第一步:将 presto-server-0.196.tar.gz 上传到服务器并解压第二步:在 presto 目录下创建存储数据和配置文件文件夹# 创建存储数据文件夹mkdir data# 创建存储配置文件文件夹mkdir etc第三步:配置在 etc 目录下添加 jvm.config 配置文件-server-Xmx16G-XX:+UseG1G原创 2021-08-06 09:56:27 · 204 阅读 · 0 评论 -
SparkCore的简单使用
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根据需要重新分片。分布式:数据存储在大数据集群不同节点上数据集:RDD 封装了计算逻辑,并不保存数据数据抽象:RDD 是一个抽象类,需要子类具体实现。原创 2021-08-06 09:54:41 · 143 阅读 · 0 评论 -
SparkSQL的简单使用
SparkSQL文章目录SparkSQL1、简介DataFrameDataSet2、Shell命令DataFrameDataSet3、IDEA开发环境准备RDD、DataFrame、DataSet 三者相互转换自定义函数UDFUDAF4、加载和保存方式加载数据保存数据APIMySQLHive1、简介DataFrame在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元原创 2021-08-06 09:53:37 · 1238 阅读 · 0 评论 -
SparkStreaming的简单使用
SparkStreaming文章目录SparkStreaming1、环境准备2、创建DStream监听端口RDD 队列Kafka自定义3、DStream 转换无状态转化操作Transformjoin有状态转化操作UpdateStateByKeyWindowOperations4、DStream 输出5、优雅关闭1、环境准备导入依赖(pom.xml)<dependency> <groupId>org.apache.spark</groupId> &l原创 2021-08-06 09:51:30 · 120 阅读 · 0 评论 -
Spark部署
Spark部署文章目录Spark部署1、Local 模式2、Standalone模式集群模式高可用模式3、Yarn 模式4、Windows模式5、部署模式对比1、Local 模式第一步:将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到服务器并解压第二步:启动 Local 环境bin/spark-shell第三步:提交应用# --class :表示要执行程序的主类,此处可以更换为咱们自己写的应用程序# --master local[2] :部署模式,默认原创 2021-08-06 09:46:12 · 300 阅读 · 0 评论 -
Sqoop的简单使用
sqoop文章目录sqoop1、安装2、导入MySQL数据准备从 MySQL 导入到 HDFS全部导入查询导入导入指定列使用sqoop关键字筛选查询导入数据从 MySQL 导入到 Hive从 MySQL 导入到 HBase3、导出HIVE/HDFS到MySQL4、常用命令常用命令列举命令&参数详解数据库连接importexporthive1、安装第一步:将 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 上传到服务器并解压第二步:将 sqoop-原创 2021-08-06 09:43:28 · 321 阅读 · 0 评论 -
Superset安装
Superset文章目录Superset1、安装一、安装Python环境二、Superset部署三、启动Superset启动(确保当前conda环境为superset)停止shell启动、停止 脚本1、安装一、安装Python环境第一步:下载Miniconda(Python3版本),(Miniconda3-latest-Linux-x86_64.sh),上传到服务器并运行# 下载地址https://repo.anaconda.com/miniconda/Miniconda3-latest-L原创 2021-08-06 09:41:16 · 213 阅读 · 0 评论 -
Zabbix的安装
Zabbix文章目录Zabbix1、安装集群部署规划安装启动停止Zabbix启动停止连接Zabbix_Web数据库1、安装集群部署规划进程hadoop151节点hadoop152节点hadoop153节点zabbix-agent√√√zabbix-server√MySQL√zabbix-web√安装第一步:关闭SELinux(修改 /etc/selinux/config )vim /etc/selinux/config原创 2021-08-06 09:39:09 · 80 阅读 · 0 评论 -
Zookeeper的简单使用
Zookeeper文章目录Zookeeper1、配置参数解读2、分布式安装3、命令行操作4、API使用环境准备创建节点判断节点是否存在获取子节点(不监听)获取子节点(监听)1、配置参数解读tickTime =2000:通信心跳数,Zookeeper服务器与客户端心跳时间,单位毫秒Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。它用于心跳机制,并且设置最小的session超时时间为两倍心跳时间。(原创 2021-08-06 09:37:01 · 355 阅读 · 0 评论