- 博客(219)
- 资源 (6)
- 收藏
- 关注
原创 大数据-玩转数据-kafka集群部署
Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据实时处理领域。
2023-11-14 19:59:38 322
原创 大数据-玩转数据-Flume
Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。Flume基于流式架构,容错性强,也很灵活简单。Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时查询。
2023-11-09 20:19:58 1075
原创 大数据工具-kafkaUi-lite
史上最轻便好用的 kafka ui 界面工具,提供了对 kafka 的界面化操作可以在界面生产消息、消费消息、创建管理 topic可以支持管理多个 kafka 集群部署简便,不需要连数据库,只有一个 jar 包启动即可。
2023-10-31 16:34:45 645
原创 大数据-玩转数据-Flink -job报错NoResourceAvailableException: Could not acquire the minimum required resources
没有可以使用的资源。那么究竟什么资源没有可以被使用了?所以我们给他调整内存的参数。以下是flink配置参数可以使用的一些配置选项。
2023-10-29 17:26:05 746
原创 大数据-玩转数据-大数据平台搭建工具 Ambari
大数据与云计算可谓是如今数据中心中最火的两项技术领域,几乎所有的 IT 服务商都想在这两项技术中有所建树。相信 Ambari 可以帮助一些 Hadoop 的初学者。长远看来,大数据的发展离不开云计算,云计算中 IaaS 可谓已经很成熟,并且价格低廉。这时候许多公司将目光聚集在了 PaaS。大数据的流行更是加速了相关 PaaS 产品的发展,而 Ambari 的出现必然可以拉近 IaaS 和 PaaS 的距离。
2023-10-28 18:44:38 290
原创 大数据-玩转数据-Python Sftp Mysql 数据
2、将数据已csv文件格式存储并对数据格式进行处理(添加表头,表头和数据均用竖线分隔符隔开,末尾也加分割符);3、文件路径文件夹以天为单位,文件名中含日期和序号,序号记录相同文件在同一天重新下载传送的批次;4、文件以Sftp方式传送到对方服务器固定位置。1、从Mysql数据库表下载数据到服务器;3、将文件压缩成.gz格式;
2023-10-28 18:29:41 435
原创 大数据-玩转数据-Flink 海量数据实时去重
布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。2.只能插入和查询元素,不能删除元素,这与产生假阳性的原因是相同的。假阳性的概率其实就是一个不在的元素,被k个函数函数散列到的k个位置全部都是1的概率。另外,由于它不存在假阴性问题,所以用作“不存在”逻辑的处理时有奇效,比如可以用来作为缓存系统(如Redis)的缓冲,防止缓存穿透。
2023-10-03 22:28:48 1602
原创 大数据-玩转数据-双流JOIN
如下图: 橙色的流去join绿色的流.范围是由橙色流的event-time + lower bound和event-time + upper bound来决定的.2.join成功后的元素的会以所在窗口的最大时间作为其时间戳. 例如窗口[5,10), 则元素会以9作为自己的时间戳。间隔流join(Interval Join), 是指使用一个流的数据按照key去join另外一条流的指定范围的数据.窗口join会join具有相同的key并且处于同一个窗口中的两个流的元素.
2023-10-03 19:54:26 286
原创 大数据-玩转数据-Flink SQL编程实战 (热门商品TOP N)
Flink 使用 OVER 窗口条件和过滤条件相结合以进行 Top-N 查询。利用 OVER 窗口的 PARTITION BY 子句的功能,Flink 还支持逐组 Top-N。例如,每个类别中实时销量最高的前五种产品。批处理表和流处理表都支持基于SQL的 Top-N 查询。流处理模式需注意: TopN 查询的结果会带有更新。Flink SQL 会根据排序键对输入的流进行排序;若 top N 的记录发生了变化,变化的部分会以撤销、更新记录的形式发送到下游。
2023-10-02 15:00:58 813
原创 大数据-玩转数据-Flink Catalog
元数据可以是临时的,例如临时表、或者通过 TableEnvironment 注册的 UDF。元数据也可以是持久化的,例如 Hive Metastore 中的元数据。HiveCatalog 有两个用途:作为原生 Flink 元数据的持久化存储,以及作为读写现有 Hive 元数据的接口。Flink 的 Hive 文档 提供了有关设置 HiveCatalog 以及访问现有 Hive 元数据的详细信息。Catalog 提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。
2023-10-01 22:57:22 716
原创 大数据-玩转数据-Flink Sql 窗口
作为大数据工程师,我们最为熟悉的数据统计方式,当然就是写 SQL 了。SQL 是结构化查询语言(Structured Query Language)的缩写,是我们对关系型数据库进行查询和修改的通用编程语言。在关系型数据库中,数据是以表(table)的形式组织起来的,所以也可以认为 SQL 是用来对表进行处理的工具语言。无论是传统架构中进行数据存储的MySQL、PostgreSQL,还是大数据应用中的 Hive,都少不了 SQL 的身影;
2023-10-01 19:28:11 835
原创 玩转数据-大数据-Flink SQL 中的时间属性
处理时间属性可以在 schema 定义的时候用 .proctime 后缀来定义。时间属性一定不能定义在一个已有字段上,所以它新增一个字段。// 1. 创建表的执行环境// 声明一个额外的字段来作为处理时间字段+ ")");事件时间属性可以用 .rowtime 后缀在定义 DataStream schema 的时候来定义。时间戳和 watermark 在这之前一定是在 DataStream 上已经定义好了。
2023-09-30 22:28:09 1877
原创 大数据-玩转数据-Flink SQL编程
通过将INSERT 操作编码为 add message、将 DELETE 操作编码为 retract message、将 UPDATE 操作编码为更新(先前)行的 retract message 和更新(新)行的 add message,将动态表转换为 retract 流。它可能是一个只有一行、不断更新的表,也可能是一个 insert-only 的表,没有 UPDATE 和 DELETE 修改,或者介于两者之间的其他表。不是所有的 [Table API,SQL] 和 [流,批] 的组合都是支持的。
2023-09-20 16:38:50 395
原创 大数据-玩转数据-Flink CEP编程
是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事件。策略营销:用预先定义好的规则对用户的行为轨迹进行实时跟踪,对行为轨迹匹配预定义规则的用户实时发送相应策略的推广。风险控制:对用户异常行为模式进行实时检测,当一个用户发生了不该发生的行为,判定这个用户是不是有违规操作的嫌疑。
2023-09-18 15:22:33 232
原创 大数据-玩转数据-Flink恶意登录监控
因此我们考虑,应该对用户的登录失败动作进行统计,具体来说,如果同一用户(可以是不同IP)在2秒之内连续两次登录失败,就认为存在恶意登录的风险,输出相关的信息进行报警提示。这是电商网站、也是几乎所有网站风控的基本一环。对于网站而言,用户登录并不是频繁的业务操作。如果一个用户短时间内频繁登录失败,就有可能是出现了程序的恶意攻击,比如密码暴力破解。
2023-09-17 18:46:38 474
原创 大数据-玩转数据-Flink页面广告点击量统计
对于广告的统计,最简单也最重要的就是页面广告的点击量,网站往往需要根据广告点击量来制定定价策略和调整推广方式,而且也可以借此收集用户的偏好信息。更加具体的应用是,我们可以根据用户的地理位置进行划分,从而总结出不同省份用户对不同广告的偏好,这样更有助于广告的精准投放。电商网站的市场营销商业指标中,除了自身的APP推广,还会考虑到页面上的广告投放(包括自己经营的产品和其它网站的广告)。在之PV,PU统计中,已经统计的广告的点击次数总和,但是没有实现窗口操作,并且也未增加排名处理.
2023-09-16 22:35:16 426
原创 大数据-玩转数据-Flink 容错机制
在分布式架构中,当某个节点出现故障,其他节点基本不受影响。在 Flink 中,有一套完整的容错机制,最重要就是检查点(checkpoint)。
2023-09-10 20:47:49 906
原创 大数据-玩转数据-Flink状态后端(下)
Flink提供了3种状态后端,MemoryStateBackend,FsStateBackend,RocksDBStateBackend,作为一个可插入的组件,没有固定的配置,根据需要进行选择。状态是通过什么方式在哪里持久化,取决于使用的状态后端。由于有效的状态访问对于处理数据的低延迟至关重要,因此每个并行任务(子任务)都会在本地维护其状态,以确保快速的状态访问。2. 需要开启HA的作业;存储方式:本地状态存储在TaskManager的内存中,checkpoint 存储在JobManager的内存中。
2023-09-10 14:22:11 913
原创 大数据-玩转数据-Flink状态编程(中)
Flink为每个键值维护一个状态实例,并将具有相同键的所有数据,都分区到同一个算子任务中,这个任务会维护和处理这个key对应的状态。当任务处理一条数据时,它会自动将状态的访问范围限定为当前数据的key。因此,具有相同key的所有数据都会访问相同的状态。去重: 去掉重复的水位值. 思路: 把水位值作为MapState的key来实现去重, value随意。键控状态是根据输入数据流中定义的键(key)来维护和访问的。检测传感器的水位值,如果连续的两个水位值超过10,就输出报警。计算每个传感器的水位和。
2023-09-09 20:48:05 393
原创 大数据-玩转数据-Flink状态编程(上)
在流式计算中有些操作一次处理一个独立的事件(比如解析一个事件), 有些操作却需要记住多个事件的信息(比如窗口操作)。流式计算分为无状态计算和有状态计算两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收水位数据,并在水位超过指定高度时发出警告。在简单聚合、窗口聚合、处理函数的应用,都会有状态的身影出现。
2023-09-03 20:05:43 790
原创 大数据-玩转数据-Flink定时器
registerProcessingTimeTimer(timestamp: Long): Unit 会注册当前key的processing time的定时器。当水位线大于等于定时器注册的时间时,触发定时器执行回调函数。deleteProcessingTimeTimer(timestamp: Long): Unit 删除之前注册处理时间定时器。deleteEventTimeTimer(timestamp: Long): Unit 删除之前注册的事件时间定时器,如果没有此时间戳的定时器,则不执行。
2023-09-01 17:27:37 768
原创 大数据-玩转数据-Flink 水印
是指的执行操作的各个设备的时间,对于运行在处理时间上的流程序, 所有的基于时间的操作(比如时间窗口)都是使用的设备时钟。比如, 一个窗口算子创建了一个长度为1小时的窗口,那么这个算子需要知道事件时间已经到达了这个窗口的关闭时间,从而在程序中去关闭这个窗口。例如,在程序中, 即使处理时间和事件时间有相同的速度, 事件时间可能会轻微的落后处理时间。另外一方面使用事件时间可以在几秒内处理已经缓存在Kafka中多周的数据,这些数据可以照样被正确处理, 就像实时发生的一样能够进入正确的窗口。
2023-08-28 16:30:50 652
原创 大数据-玩转数据-Flink窗口函数
ReduceFunction,AggregateFunction更加高效, 原因就是Flink可以对到来的元素进行增量聚合 . ProcessWindowFunction 可以得到一个包含这个窗口中所有元素的迭代器, 以及这些元素所属窗口的一些元数据信息.前面指定了窗口的分配器, 接着我们需要来指定如何计算, 这事由window function来负责. 一旦窗口关闭, window function 去计算处理窗口中的每个元素.输入和输出可以不一致。
2023-08-27 17:07:45 1033
原创 大数据-玩转数据-Flink窗口
在代码中, Flink使用TimeWindow这个类来表示基于时间的窗口. 这个类提供了key查询开始时间戳和结束时间戳的方法, 还提供了针对给定的窗口获取它允许的最大时间戳的方法(maxTimestamp())滚动窗口有固定的大小, 窗口与窗口之间不会重叠也没有缝隙.比如,如果指定一个长度为5分钟的滚动窗口, 当前窗口开始计算, 每5分钟启动一个新的窗口.时间窗口包含一个开始时间戳(包括)和结束时间戳(不包括), 这两个时间戳一起限制了窗口的尺寸.输入nc -lk 999。
2023-08-24 21:59:37 829
原创 大数据-玩转数据-Flink营销对账
在电商网站中,订单的支付作为直接与营销收入挂钩的一环,在业务流程中非常重要。对于订单而言,为了正确控制业务流程,也为了增加用户的支付意愿,网站一般会设置一个支付失效时间,超过一段时间不支付的订单就会被取消。另外,对于订单的支付,我们还应保证用户支付的正确性,这可以通过第三方支付平台的交易数据来做一个实时对账。对于订单支付事件,用户支付完成其实并不算完,我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息,所以我们要同时读入两条流的数据来做合并处理。JavaBean类的准备。
2023-08-20 16:15:58 621
原创 大数据-玩转数据-Flink App市场推广统计
电商网站中已经有越来越多的用户来自移动端,相比起传统浏览器的登录方式,手机APP成为了更多用户访问电商网站的首选。对于电商企业来说,一般会通过各种不同的渠道对自己的APP进行市场推广,而这些渠道的统计数据(比如,不同网站上广告链接的点击量、APP下载量)就成了市场营销的重要商业指标。统计 不同渠道的不同用户行为。封装数据的JavaBean类。
2023-08-20 08:21:56 617
原创 大数据-玩转数据-Flink 网站UV统计
在实际应用中,我们往往会关注,到底有多少不同的用户访问了网站,所以另外一个统计流量的重要指标是网站的独立访客数(Unique Visitor,UV)。对于UserBehavior数据源来说,我们直接可以根据userId来区分不同的用户。将userid放到SET集合里面,统计集合长度,便可以统计到网站的访客数。
2023-08-19 15:11:29 1646
原创 大数据-玩转数据-Flink网页埋点PV统计
一般来说,PV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的PV。接下来我们就用Flink算子来实现PV的统计。衡量网站流量一个最简单的指标,就是网站的页面浏览量(Page View,PV)。用户每次打开一个页面便记录1次PV,多次打开同一页面则浏览量累计。把数据文件 UserBehavior 复制到project的input目录下。用于封装数据的JavaBean类。
2023-08-14 17:52:55 821
原创 大数据-玩转数据-Flink 自定义Sink(Mysql)
如果Flink没有提供给我们可以直接使用的连接器,那我们如果想将数据存储到我们自己的存储设备中,mysql 的安装使用请参考。
2023-08-13 19:27:05 883
原创 大数据-玩转数据-Redis 安装与使用
因此课程中我们会基于Linux系统来安装Redis.redis-cli:是redis自带客户端,使用命令redis-cli就可以启动redis的客户端程序。redis-cli -p 端口号:连接127.0.0.1(本机)的指定端口上的redis服务。redis-cli -h ip地址 -p 端口:连接指定ip主机上的指定端口的redis服务。redis-cli:默认连接127.0.0.1(本机)的6379端口上的redis服务。首先进入服务器上的redis下的conf目录下的redis.conf文件;
2023-08-12 15:26:45 542
原创 大数据-玩转数据-Linux端口的开启
centOS6.* 的linux版本是自带iptables的,所以可以直接使用该方式,centOS7 不自带iptables的,所以要使用该方式,需要手动安装iptables后,再使用该方式!如果这时,我将Mysql在Linux中启动,并配置完成,那么远程telnet该端口是可以成功的!当在Linux中成功开启了某个端口,但是远程telnet还是无法ping通,是正常的!因为3306端口没有被Linux进程监听,换句话说,就是该端口上没有运行任何程序!再次查看防火墙状态,发现已开启!
2023-07-30 17:48:34 398
原创 大数据-玩转数据-FLINK(Yarn模式)的安装与部署
在这些容器上,Flink 会部署JobManager 和 TaskManager 的实例,从而启动集群。一个Job会对应一个Flink集群,每提交一个作业会根据自身的情况,都会单独向yarn申请资源,直到作业执行完成,一个作业的失败与否并不会影响下一个作业的正常提交和运行。内存集中管理模式:在Yarn中初始化一个Flink集群,开辟指定的资源,之后我们提交的Flink Jon都在这个Flink yarn-session中,也就是说不管提交多少个job,这些job都会共用开始时在yarn中申请的资源。
2023-05-21 21:05:32 2487 1
原创 大数据-玩转数据-netcat
Netcat(简称nc)是一款强大的命令行网络工具,用来在两台机器之间建立TCP/UDP连接,并通过标准的输入输出进行数据的读写。
2023-05-01 12:11:32 1419 3
CentOS 7的安装.docx
2019-05-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人