人猿宇宙-CSDN博客

原创大数据-玩转数据-Centos7 升级JDK11

安装必要的（-y表示安装过程中都默认yes）

2023-11-15 19:43:59 569

原创大数据-玩转数据-kafka集群部署

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。

2023-11-14 19:59:38 267

原创大数据-玩转数据-Flume

Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。Flume基于流式架构，容错性强，也很灵活简单。Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。

2023-11-09 20:19:58 975

原创大数据工具-kafkaUi-lite

史上最轻便好用的 kafka ui 界面工具，提供了对 kafka 的界面化操作可以在界面生产消息、消费消息、创建管理 topic可以支持管理多个 kafka 集群部署简便，不需要连数据库，只有一个 jar 包启动即可。

2023-10-31 16:34:45 466

原创大数据-玩转数据-Flink -job报错NoResourceAvailableException: Could not acquire the minimum required resources

没有可以使用的资源。那么究竟什么资源没有可以被使用了？所以我们给他调整内存的参数。以下是flink配置参数可以使用的一些配置选项。

2023-10-29 17:26:05 567

大数据与云计算可谓是如今数据中心中最火的两项技术领域，几乎所有的 IT 服务商都想在这两项技术中有所建树。相信 Ambari 可以帮助一些 Hadoop 的初学者。长远看来，大数据的发展离不开云计算，云计算中 IaaS 可谓已经很成熟，并且价格低廉。这时候许多公司将目光聚集在了 PaaS。大数据的流行更是加速了相关 PaaS 产品的发展，而 Ambari 的出现必然可以拉近 IaaS 和 PaaS 的距离。

2023-10-28 18:44:38 251

原创大数据-玩转数据-Python Sftp Mysql 数据

2、将数据已csv文件格式存储并对数据格式进行处理（添加表头，表头和数据均用竖线分隔符隔开，末尾也加分割符）；3、文件路径文件夹以天为单位，文件名中含日期和序号，序号记录相同文件在同一天重新下载传送的批次；4、文件以Sftp方式传送到对方服务器固定位置。1、从Mysql数据库表下载数据到服务器；3、将文件压缩成.gz格式；

2023-10-28 18:29:41 417

原创大数据-玩转数据-Flink 海量数据实时去重

布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。2.只能插入和查询元素，不能删除元素，这与产生假阳性的原因是相同的。假阳性的概率其实就是一个不在的元素，被k个函数函数散列到的k个位置全部都是1的概率。另外，由于它不存在假阴性问题，所以用作“不存在”逻辑的处理时有奇效，比如可以用来作为缓存系统（如Redis）的缓冲，防止缓存穿透。

2023-10-03 22:28:48 1494

原创大数据-玩转数据-双流JOIN

如下图: 橙色的流去join绿色的流.范围是由橙色流的event-time + lower bound和event-time + upper bound来决定的.2.join成功后的元素的会以所在窗口的最大时间作为其时间戳. 例如窗口[5,10), 则元素会以9作为自己的时间戳。间隔流join(Interval Join), 是指使用一个流的数据按照key去join另外一条流的指定范围的数据.窗口join会join具有相同的key并且处于同一个窗口中的两个流的元素.

2023-10-03 19:54:26 243

原创大数据-玩转数据-Flink SQL编程实战 (热门商品TOP N)

Flink 使用 OVER 窗口条件和过滤条件相结合以进行 Top-N 查询。利用 OVER 窗口的 PARTITION BY 子句的功能，Flink 还支持逐组 Top-N。例如，每个类别中实时销量最高的前五种产品。批处理表和流处理表都支持基于SQL的 Top-N 查询。流处理模式需注意: TopN 查询的结果会带有更新。Flink SQL 会根据排序键对输入的流进行排序；若 top N 的记录发生了变化，变化的部分会以撤销、更新记录的形式发送到下游。

2023-10-02 15:00:58 772

原创大数据-玩转数据-Flink Catalog

元数据可以是临时的，例如临时表、或者通过 TableEnvironment 注册的 UDF。元数据也可以是持久化的，例如 Hive Metastore 中的元数据。HiveCatalog 有两个用途：作为原生 Flink 元数据的持久化存储，以及作为读写现有 Hive 元数据的接口。Flink 的 Hive 文档提供了有关设置 HiveCatalog 以及访问现有 Hive 元数据的详细信息。Catalog 提供了元数据信息，例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。

2023-10-01 22:57:22 680

原创大数据-玩转数据-Flink Sql 窗口

作为大数据工程师，我们最为熟悉的数据统计方式，当然就是写 SQL 了。SQL 是结构化查询语言（Structured Query Language）的缩写，是我们对关系型数据库进行查询和修改的通用编程语言。在关系型数据库中，数据是以表（table）的形式组织起来的，所以也可以认为 SQL 是用来对表进行处理的工具语言。无论是传统架构中进行数据存储的MySQL、PostgreSQL，还是大数据应用中的 Hive，都少不了 SQL 的身影；

2023-10-01 19:28:11 804

原创玩转数据-大数据-Flink SQL 中的时间属性

处理时间属性可以在 schema 定义的时候用 .proctime 后缀来定义。时间属性一定不能定义在一个已有字段上，所以它新增一个字段。// 1. 创建表的执行环境// 声明一个额外的字段来作为处理时间字段+ ")");事件时间属性可以用 .rowtime 后缀在定义 DataStream schema 的时候来定义。时间戳和 watermark 在这之前一定是在 DataStream 上已经定义好了。

2023-09-30 22:28:09 1804

原创大数据-玩转数据-Flink SQL编程

通过将INSERT 操作编码为 add message、将 DELETE 操作编码为 retract message、将 UPDATE 操作编码为更新(先前)行的 retract message 和更新(新)行的 add message，将动态表转换为 retract 流。它可能是一个只有一行、不断更新的表，也可能是一个 insert-only 的表，没有 UPDATE 和 DELETE 修改，或者介于两者之间的其他表。不是所有的 [Table API，SQL] 和 [流，批] 的组合都是支持的。

2023-09-20 16:38:50 355

原创大数据-玩转数据-Flink CEP编程

是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分析得到更复杂的复合事件。策略营销：用预先定义好的规则对用户的行为轨迹进行实时跟踪，对行为轨迹匹配预定义规则的用户实时发送相应策略的推广。风险控制：对用户异常行为模式进行实时检测，当一个用户发生了不该发生的行为，判定这个用户是不是有违规操作的嫌疑。

2023-09-18 15:22:33 190

原创大数据-玩转数据-Flink恶意登录监控

因此我们考虑，应该对用户的登录失败动作进行统计，具体来说，如果同一用户（可以是不同IP）在2秒之内连续两次登录失败，就认为存在恶意登录的风险，输出相关的信息进行报警提示。这是电商网站、也是几乎所有网站风控的基本一环。对于网站而言，用户登录并不是频繁的业务操作。如果一个用户短时间内频繁登录失败，就有可能是出现了程序的恶意攻击，比如密码暴力破解。

2023-09-17 18:46:38 424

原创大数据-玩转数据-Flink页面广告点击量统计

对于广告的统计，最简单也最重要的就是页面广告的点击量，网站往往需要根据广告点击量来制定定价策略和调整推广方式，而且也可以借此收集用户的偏好信息。更加具体的应用是，我们可以根据用户的地理位置进行划分，从而总结出不同省份用户对不同广告的偏好，这样更有助于广告的精准投放。电商网站的市场营销商业指标中，除了自身的APP推广，还会考虑到页面上的广告投放（包括自己经营的产品和其它网站的广告）。在之PV,PU统计中，已经统计的广告的点击次数总和，但是没有实现窗口操作，并且也未增加排名处理.

2023-09-16 22:35:16 365

原创大数据-玩转数据-oracel字符串分割转化为多列

注：取字符串分拆最大的数。

2023-09-15 11:41:32 1109 1

原创大数据-玩转数据-Flink 容错机制

在分布式架构中，当某个节点出现故障，其他节点基本不受影响。在 Flink 中，有一套完整的容错机制，最重要就是检查点（checkpoint）。

2023-09-10 20:47:49 816

原创大数据-玩转数据-Flink状态后端（下）

Flink提供了3种状态后端，MemoryStateBackend，FsStateBackend，RocksDBStateBackend，作为一个可插入的组件，没有固定的配置，根据需要进行选择。状态是通过什么方式在哪里持久化，取决于使用的状态后端。由于有效的状态访问对于处理数据的低延迟至关重要，因此每个并行任务(子任务)都会在本地维护其状态，以确保快速的状态访问。2. 需要开启HA的作业；存储方式：本地状态存储在TaskManager的内存中，checkpoint 存储在JobManager的内存中。

2023-09-10 14:22:11 856

原创大数据-玩转数据-Flink状态编程（中）

Flink为每个键值维护一个状态实例，并将具有相同键的所有数据，都分区到同一个算子任务中，这个任务会维护和处理这个key对应的状态。当任务处理一条数据时，它会自动将状态的访问范围限定为当前数据的key。因此，具有相同key的所有数据都会访问相同的状态。去重: 去掉重复的水位值. 思路: 把水位值作为MapState的key来实现去重, value随意。键控状态是根据输入数据流中定义的键（key）来维护和访问的。检测传感器的水位值，如果连续的两个水位值超过10，就输出报警。计算每个传感器的水位和。

2023-09-09 20:48:05 351

原创大数据-玩转数据-Flink状态编程（上）

在流式计算中有些操作一次处理一个独立的事件(比如解析一个事件), 有些操作却需要记住多个事件的信息(比如窗口操作)。流式计算分为无状态计算和有状态计算两种情况。无状态的计算观察每个独立事件，并根据最后一个事件输出结果。例如，流处理应用程序从传感器接收水位数据，并在水位超过指定高度时发出警告。在简单聚合、窗口聚合、处理函数的应用，都会有状态的身影出现。

2023-09-03 20:05:43 709

原创大数据-玩转数据-Flink定时器

registerProcessingTimeTimer(timestamp: Long): Unit 会注册当前key的processing time的定时器。当水位线大于等于定时器注册的时间时，触发定时器执行回调函数。deleteProcessingTimeTimer(timestamp: Long): Unit 删除之前注册处理时间定时器。deleteEventTimeTimer(timestamp: Long): Unit 删除之前注册的事件时间定时器，如果没有此时间戳的定时器，则不执行。

2023-09-01 17:27:37 729

原创大数据-玩转数据-Flink 水印

是指的执行操作的各个设备的时间，对于运行在处理时间上的流程序, 所有的基于时间的操作(比如时间窗口)都是使用的设备时钟。比如, 一个窗口算子创建了一个长度为1小时的窗口,那么这个算子需要知道事件时间已经到达了这个窗口的关闭时间，从而在程序中去关闭这个窗口。例如，在程序中，即使处理时间和事件时间有相同的速度，事件时间可能会轻微的落后处理时间。另外一方面使用事件时间可以在几秒内处理已经缓存在Kafka中多周的数据，这些数据可以照样被正确处理, 就像实时发生的一样能够进入正确的窗口。

2023-08-28 16:30:50 557

原创大数据-玩转数据-Flink窗口函数

ReduceFunction,AggregateFunction更加高效, 原因就是Flink可以对到来的元素进行增量聚合 . ProcessWindowFunction 可以得到一个包含这个窗口中所有元素的迭代器, 以及这些元素所属窗口的一些元数据信息.前面指定了窗口的分配器, 接着我们需要来指定如何计算, 这事由window function来负责. 一旦窗口关闭, window function 去计算处理窗口中的每个元素.输入和输出可以不一致。

2023-08-27 17:07:45 1008

原创大数据-玩转数据-Flink窗口

在代码中, Flink使用TimeWindow这个类来表示基于时间的窗口. 这个类提供了key查询开始时间戳和结束时间戳的方法, 还提供了针对给定的窗口获取它允许的最大时间戳的方法(maxTimestamp())滚动窗口有固定的大小, 窗口与窗口之间不会重叠也没有缝隙.比如,如果指定一个长度为5分钟的滚动窗口, 当前窗口开始计算, 每5分钟启动一个新的窗口.时间窗口包含一个开始时间戳(包括)和结束时间戳(不包括), 这两个时间戳一起限制了窗口的尺寸.输入nc -lk 999。

2023-08-24 21:59:37 760

原创大数据-玩转数据-Flink营销对账

在电商网站中，订单的支付作为直接与营销收入挂钩的一环，在业务流程中非常重要。对于订单而言，为了正确控制业务流程，也为了增加用户的支付意愿，网站一般会设置一个支付失效时间，超过一段时间不支付的订单就会被取消。另外，对于订单的支付，我们还应保证用户支付的正确性，这可以通过第三方支付平台的交易数据来做一个实时对账。对于订单支付事件，用户支付完成其实并不算完，我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息，所以我们要同时读入两条流的数据来做合并处理。JavaBean类的准备。

2023-08-20 16:15:58 567

原创大数据-玩转数据-Flink App市场推广统计

电商网站中已经有越来越多的用户来自移动端，相比起传统浏览器的登录方式，手机APP成为了更多用户访问电商网站的首选。对于电商企业来说，一般会通过各种不同的渠道对自己的APP进行市场推广，而这些渠道的统计数据（比如，不同网站上广告链接的点击量、APP下载量）就成了市场营销的重要商业指标。统计不同渠道的不同用户行为。封装数据的JavaBean类。

2023-08-20 08:21:56 586

原创大数据-玩转数据-Flink 网站UV统计

在实际应用中，我们往往会关注，到底有多少不同的用户访问了网站，所以另外一个统计流量的重要指标是网站的独立访客数（Unique Visitor，UV）。对于UserBehavior数据源来说，我们直接可以根据userId来区分不同的用户。将userid放到SET集合里面，统计集合长度，便可以统计到网站的访客数。

2023-08-19 15:11:29 1592

原创大数据-玩转数据-Flink网页埋点PV统计

一般来说，PV与来访者的数量成正比，但是PV并不直接决定页面的真实来访者数量，如同一个来访者通过不断的刷新页面，也可以制造出非常高的PV。接下来我们就用Flink算子来实现PV的统计。衡量网站流量一个最简单的指标，就是网站的页面浏览量（Page View，PV）。用户每次打开一个页面便记录1次PV，多次打开同一页面则浏览量累计。把数据文件 UserBehavior 复制到project的input目录下。用于封装数据的JavaBean类。

2023-08-14 17:52:55 791

原创大数据-玩转数据-Flink 自定义Sink(Mysql)

如果Flink没有提供给我们可以直接使用的连接器，那我们如果想将数据存储到我们自己的存储设备中，mysql 的安装使用请参考。

2023-08-13 19:27:05 796

原创大数据-玩转数据-Flink RedisSink

可以根据要写入的redis的不同数据类型进行调整。具体版本根据实际情况确定。

2023-08-12 19:51:16 1279

原创大数据-玩转数据-Redis 安装与使用

因此课程中我们会基于Linux系统来安装Redis.redis-cli：是redis自带客户端，使用命令redis-cli就可以启动redis的客户端程序。redis-cli -p 端口号：连接127.0.0.1(本机)的指定端口上的redis服务。redis-cli -h ip地址 -p 端口：连接指定ip主机上的指定端口的redis服务。redis-cli：默认连接127.0.0.1(本机)的6379端口上的redis服务。首先进入服务器上的redis下的conf目录下的redis.conf文件;

2023-08-12 15:26:45 501

转载大数据-玩转数据-ORACLE数据库两个字符串比较

oracle 字符串取交集

2023-08-09 15:33:54 617

原创大数据-玩转数据-Sink到Kafka

运行程序后看到消费者消费成功。pom.xml 中添加。启动zookeeper。

2023-08-09 06:51:39 581

原创大数据-玩转数据-Flink-Transform

flink 算子

2023-08-07 22:27:17 777

原创大数据-玩转数据-FLINK-从kafka消费数据

运行本段代码，等待kafka产生数据进行消费。

2023-08-04 17:29:25 1698

原创大数据-玩转数据-Linux端口的开启

centOS6.* 的linux版本是自带iptables的，所以可以直接使用该方式，centOS7 不自带iptables的，所以要使用该方式，需要手动安装iptables后，再使用该方式！如果这时，我将Mysql在Linux中启动，并配置完成，那么远程telnet该端口是可以成功的！当在Linux中成功开启了某个端口，但是远程telnet还是无法ping通，是正常的！因为3306端口没有被Linux进程监听，换句话说，就是该端口上没有运行任何程序！再次查看防火墙状态，发现已开启！

2023-07-30 17:48:34 361

原创大数据-玩转数据-FLINK(Yarn模式)的安装与部署

在这些容器上，Flink 会部署JobManager 和 TaskManager 的实例，从而启动集群。一个Job会对应一个Flink集群，每提交一个作业会根据自身的情况，都会单独向yarn申请资源，直到作业执行完成，一个作业的失败与否并不会影响下一个作业的正常提交和运行。内存集中管理模式：在Yarn中初始化一个Flink集群，开辟指定的资源，之后我们提交的Flink Jon都在这个Flink yarn-session中，也就是说不管提交多少个job，这些job都会共用开始时在yarn中申请的资源。

2023-05-21 21:05:32 2317 1

原创大数据-玩转数据-netcat

Netcat（简称nc）是一款强大的命令行网络工具，用来在两台机器之间建立TCP/UDP连接，并通过标准的输入输出进行数据的读写。

2023-05-01 12:11:32 1286 3

那些年大数据那些坑.docx

CentOS 7的安装.docx

Hadoop学习之路（三）Hadoop-2.7.5在CentOS-6.7上的编译

hadoop 大数据平台

致远OA A8-V5协同管理软件 V5.1安装维护手册

RHEL5[1].4+ORACLE11G+WEBLOGIC10.3集群安装部署手册

空空如也