![](https://img-blog.csdnimg.cn/94ffd2d60bda438abac66bc47dcc4e94.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 88
Flink、Kafka、Hadoop、Spark等
吕布辕门
逆水行舟,不进则退!
展开
-
分布式数据库HBase
目录分布式数据库HBase独立模式下载解压最新版本启动 HBaseShell 练习停止 HBase伪分布式用于本地测试分布式模式分布式数据库HBase独立模式本指南介绍了在单机安装HBase的方法。会引导你通过shell创建一个表,插入一行,然后删除它,最后停止HBase。下载解压最新版本选择一个 Apache 下载镜像,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.gz 的文件$ wget https://archive.apache.org/dis.原创 2022-05-10 07:30:00 · 132 阅读 · 0 评论 -
大数据hive快速开始
目录数据仓库Hive安装**下载****设置Hive环境****配置Hive环境变量**配置元数据仓库启动**验证Hive安装**问题使用创建数据库创建表导入数据导出数据数据仓库HiveHive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hadoop生态系统包含了用于协助Hadoop的不同的子项目(工具)模块,如Sqoop, Pig 和 Hive。Sqoop: 它是用来在HDFS和RDBMS之间来回导入原创 2022-04-22 13:43:23 · 2037 阅读 · 0 评论 -
【大数据实战】flume 数据采集
目录flume快速开始概述系统要求数据流模型安装一个简单的例子采集源目录源执行源Kafka源NetCat TCP 源avro source接收器logger sinkavro sinkHDFS 接收器弹性搜索接收器多层代理实战采集目录文件到HDFSflume快速开始概述Apache Flume 是一个分布式、可靠且可用的系统,用于有效地收集、聚合来自许多不同来源的大量日志数据并将其移动到集中式数据存储。Apache Flume 的使用不仅限于日志数据聚合。由于数据源是可定制的,Flume 可用于传原创 2022-04-07 15:49:17 · 5229 阅读 · 0 评论 -
【大数据实战】Flink DataStream API 概述
目录概述什么是数据流?Flink 程序剖析示例程序Data Sources数据流转换Data SinksIterations执行参数容错控制延迟调试本地执行环境集合数据源迭代器 Data Sink概述Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也原创 2022-04-03 07:00:00 · 435 阅读 · 0 评论 -
【大数据实战】Docker中Flink集群搭建
Docker 中部署使用 Docker 容器完成 Flink 集群的本地设置(在一台机器上,但在单独的容器中)。在 Docker 上启动会话集群一个Flink Session 集群可用于运行多个作业。每个作业都需要在集群部署完成后提交到集群。要使用 Docker 部署Flink Session 集群,您需要启动一个 JobManager 容器。为了启用容器之间的通信,我们首先设置一个必需的 Flink 配置属性并创建一个网络:$ FLINK_PROPERTIES="jobmanager.rpc.ad原创 2022-04-02 20:01:22 · 5337 阅读 · 1 评论 -
【大数据实战】Docker中Hadoop集群搭建
目录Docker中Hadoop集群搭建环境网络设置安装docker安装OpenSSH免密登录Ansible安装软件环境配置配置hadoop运行所需配置文件Hadoop 启动问题Docker中Hadoop集群搭建环境1、操作系统: CentOS 7 64位网络设置hostnameIPcluster-master172.20.0.2cluster-slave1172.20.0.3cluster-slave2172.20.0.4cluster-slave31原创 2022-03-24 17:56:44 · 5901 阅读 · 1 评论 -
大数据系列教程(4)Flink 使用 DataStream API 进行欺诈检测
目录使用 DataStream API 进行欺诈检测**版本1**版本2版本3使用 DataStream API 进行欺诈检测Apache Flink 提供了一个 DataStream API,用于构建健壮的、有状态的流应用程序。它提供对状态和时间的细粒度控制,从而允许实施高级事件驱动系统。需求:信用卡欺诈在数字时代日益受到关注。犯罪分子通过诈骗或侵入不安全的系统来窃取信用卡号码。被盗号码通过一次或多次小额购买进行测试,通常为一美元或更少。如果这行得通,他们就会进行更重大的购买,以获得可以出售或自己原创 2022-03-23 07:00:00 · 590 阅读 · 0 评论 -
大数据系列教程(1)Flink 是什么
目录Flink 是什么-架构处理无界和有界数据随处部署应用程序以任何规模运行应用程序利用内存性能Flink 是什么-应用流应用程序的构建块流状态时间分层 API过程函数数据流 APISQL & Table API类库Flink 是什么-操作24/7 不间断运行您的应用程序更新、迁移、暂停和恢复您的应用程序监视和控制您的应用程序Flink 是什么-架构Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存中原创 2022-03-20 07:00:00 · 301 阅读 · 0 评论 -
大数据系列教程(2)Flink 应用场景
应用场景Apache Flink 是开发和运行许多不同类型的应用程序的绝佳选择,因为它具有广泛的功能集。Flink 的功能包括支持流和批处理、复杂的状态管理、事件时间处理语义以及状态的一次性一致性保证。下面,我们将探讨由 Flink 提供支持的最常见的应用程序类型,并为现实世界的示例提供指导。事件驱动的应用程序数据分析应用数据管道应用事件驱动的应用程序什么是事件驱动的应用程序?事件驱动应用程序是一种有状态的应用程序,它从一个或多个事件流中提取事件,并通过触发计算、状态更新或外部操作对传入原创 2022-03-21 07:00:00 · 364 阅读 · 0 评论 -
大数据系列教程(3)Flink 快速开始
目录Flink 快速开始下载 Flink启动和停止本地集群提交 Flink 作业Flink 快速开始Flink 旨在以闪电般的速度处理连续的数据流。这个简短的指南将向您展示如何下载、安装和运行最新的 Flink 稳定版本。您还将运行一个示例 Flink 作业并在 Web UI 中查看它。下载 FlinkFlink 可以在所有类 UNIX 环境中运行,即 Linux、Mac OS X 和 Cygwin(适用于 Windows)。您需要安装Java 8 或 11。要检查安装的 Java 版本,请在终端中原创 2022-03-22 07:00:00 · 244 阅读 · 0 评论