代码编制世界
码龄6年
关注
提问 私信
  • 博客:137,171
    动态:49
    137,220
    总访问量
  • 81
    原创
  • 2,241,042
    排名
  • 54
    粉丝
  • 0
    铁粉

个人简介:大数据

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-04-22
博客简介:

qq_44962429的博客

查看详细资料
个人成就
  • 获得75次点赞
  • 内容获得34次评论
  • 获得360次收藏
  • 代码片获得209次分享
创作历程
  • 14篇
    2021年
  • 59篇
    2020年
  • 8篇
    2019年
成就勋章
TA的专栏
  • flink
    10篇
  • 大数据
    12篇
  • flume
    1篇
  • apache
    1篇
  • 队列
    3篇
  • kafka
    3篇
  • lettuce
    1篇
  • redis
    2篇
  • nosql
    2篇
  • 实时计算
    5篇
  • 状态计算
    4篇
  • flinkTable
    1篇
  • flinkSQL
    1篇
  • flink table
    1篇
  • flink sql
    1篇
  • broadcast
    1篇
  • batch写入mysql
    1篇
  • flink批量写入oracle
    1篇
  • slot
    1篇
  • parallelism
    1篇
  • redis管道
    1篇
  • redsi pipeLine
    1篇
  • 转载
  • HashMap
  • 原创
    61篇
兴趣领域 设置
  • 大数据
    mysqlredis
  • 后端
    spring架构
  • 搜索
    elasticsearch
  • 服务器
    linux
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Apache Flume

官方文档:http://flume.apache.org1、概述Flume是一个分布式、可靠、高可用的高效的日志数据收集、聚合以及传输系统,它简单和灵活的架构是基于数据流的。Flume具备强大的容错保证机制,有多种容错和恢复保证。Flume使用简单可扩展的数据模型允许开发在线分析处理应用。Flume Event:事件对象被定义数据流中一个单元,Event数据流的有效载荷(body)为采集到的一条记录,Event Head中可以添加一些可选的KV的描述信息。Flume Agent:Agent实例是一
原创
发布博客 2021.02.23 ·
294 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka(三)kafka steaming high-level api

接上一篇文章 https://blog.csdn.net/qq_44962429/article/details/1138099111、 high level apiKafka Streams DSL(Domain Specific Language)构建于Streams Processor API之上。它是大多数用户推荐的,特别是初学者。大多数数据处理操作只能用几行DSL代码表示。在 Kafka Streams DSL 中有这么几个概念KTable、KStream和GlobalKTableKStr
原创
发布博客 2021.02.22 ·
380 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

kafka(二)幂等性、事务、kafka Streaming

1、kafka生产批(优化)producer会尝试缓冲record,实现批量发送,通过以下配置控制发送时机。batch.size:当多条消息发送到一个分区时,生产者会进行批量发送,这个参数指定了批量消息的大小上限(以字节为单位)。linger.ms:这个参数指定生产者在发送批量消息前等待的时间,当设置此参数后,即便没有达到批量消息的指定大小,到达时间后生产者也会发送批量消息到broker。properties.put(ProducerConfig.BATCH_SIZE_CONFIG,2048);
原创
发布博客 2021.02.14 ·
403 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka(一)基本概念、集群搭建及API使用及框架整合

官网:http://kafka.apache.org/1、kafka概念及原理Apache Kafka® is a distributed streaming platform——分布式的流数据平台1.1 kafak简介kafka具备三项关键能力:①发布、订阅记录流,类似于消息队列或者企业级消息系统。②以一种容错持久化的方式存储记录流(默认可以保存7天)。③实时处理加工流数据(kakfa streaming)。kafka的应用场景:①构建实时的流数据管道,可靠的在系统和应用之间获取数据。
原创
发布博客 2021.02.10 ·
447 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

redis之全面解析

1、什么是redis?redis是一种基于内存并且可以持久化到硬盘的key-value型noSql数据库,支持丰富的数据类型如:String、List、Set、ZSet、Hash五种数据类型。是单线程,单进程,不支持并发操作,因为速度非常之快(Redis读的速度是110000次/s,写的速度是81000次/s), 所以也可称做宏观并行,微观串行。2、单机和集群搭建2.1 单机版(仅仅入门学习使用)环境准备:centos7、redis-4.0.10.tar.gz①关闭防火墙systemctl st
原创
发布博客 2021.02.08 ·
754 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏

Redis高级客户端Lettuce

使用注意:要求JDK8及以上,redis版本至少为2.6官方文档:https://lettuce.io/core/release/reference/index.html#getting-started.get-it1、Lettuce简介Lettuce是一个基于netty和Reactor的可伸缩线程安全Redis客户端。Lettuce提供了同步、异步、反应式API来与Redis进行交互。2、基本使用Lettuce使用的时候主要依赖于以下四个组件:① redisURI:连接信息。② redisC
原创
发布博客 2021.02.05 ·
1267 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

flink window之Window Join

基本语法:stream.join(otherStream) .where(<KeySelector>) .equalTo(<KeySelector>) .window(<WindowAssigner>) .apply(<JoinFunction>)1、Tumbling Window Join案例:val fsEnv = StreamExecutionEnvironment.getExecutionEnvironmen
原创
发布博客 2021.01.20 ·
626 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

flink window之Triggers、evictor以及基于Event Time的window对于迟到数据的处理

1、Trigger触发器(Trigger)决定何时由“Window Function”处理窗口, 每个WindowAssigner都带有一个默认Trigger。 如果默认触发器不符合您的需求,则可以使用trigger(...)指定自定义触发器。WindowAssigners触发器global windowNeverTriggerevent-time windowEventTimeTriggerprocessing-time windowProcessingTimeT
原创
发布博客 2021.01.20 ·
834 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

flink window之四大window functions

在前面的文章中,博主分享了flink的四大assigner,有需要的发烧友点击链接https://blog.csdn.net/qq_44962429/article/details/112912432查询,欢迎指出问题,交流分享!本文主要介绍flink的window functionswindow functions当系统认定窗口就绪之后会调用Window Functions对窗口实现聚合计算。常见的Window Functions有以下形式: ReduceFunction, AggregateFun
原创
发布博客 2021.01.20 ·
293 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

flink window之四大WindowAssigner

Windows是流计算的核心。Windows将流分成有限大小的“buckets”,我们可以在其上应用聚合计算(ProcessWindowFunction,ReduceFunction,AggregateFunction或FoldFunction)等。在Flink中编写一个窗口计算的基本结构如下:Keyed Windowsstream .keyBy(...) .window(...) <- 必须制定: 窗口类型 [
原创
发布博客 2021.01.20 ·
964 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

flink之checkpoint、savepoint,Flink计算发布之后是否还能够修改计算算子?(指状态恢复)

1、chekpoint、savepointCheckPoint是Flink实现故障容错的一种机制,系统会根据配置的检查点定期自动对程序计算状态进行备份。一旦程序在计算过程中出现故障,系统会选择一个最近的检查点进行故障恢复。SavePoint是一种有效的运维手段,需要用户手动触发程序进行状态备份,本质也是在做CheckPoint。./bin/flink cancel -m centos:8081 -s hdfs:///savepoints f21795e74312eb06fbf0d48cb8d90489
原创
发布博客 2021.01.20 ·
927 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink之Operator State(non-keyed state)

flink介绍,flink对所有的算子都支持有状态计算,在博主之前分享的文章中,关于keyed state已经做过很详细的介绍,欢迎各位发烧友点击https://blog.csdn.net/qq_44962429/article/details/104428236交流虽然在我们平时的生产环境中,关于keyed state应用的比较多,但是对于那些基于窗口输出到外部系统的需要,为了数据不丢失或者重复输出到外部系统,sink算子也是需要进行保存状态的,接下来本文主要介绍Operator state1、Ope
原创
发布博客 2021.01.20 ·
1378 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

flink之TTL(Time To Live),State Backend,How to Clear State?

Flink在管理状态方面,使用Checkpoint和Savepoint实现状态容错。Flink的状态在计算规模发生变化的时候,可以自动在并行实例间实现状态的重新分发,底层使用State Backend策略存储计算状态,State Backend决定了状态存储的方式和位置。Flink在状态管理中将所有能操作的状态分为Keyed State和Operator State。Keyed State类型的状态同key一一绑定,并且只能在KeyedStream中使用。所有non-KeyedStream状态操作都叫做
原创
发布博客 2021.01.20 ·
838 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

hive开启动态分区,文件压缩

开启动态分区set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.dynamic.partition=true;开启压缩set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;开启文件合并默认大小为128Mset hive.merge.tezfiles=tru
原创
发布博客 2021.01.18 ·
395 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

flink之Timer定时器

一、Timer简介Timer(定时器)是Flink Streaming API提供的用于感知并利用处理时间/事件时间变化的机制。最常见的使用Timer的地方就是KeyedProcessFunction。我们在其processElement()方法中注册Timer,然后覆写其onTimer()方法作为Timer触发时的回调逻辑。根据时间特征的不同:(1)处理时间——调用Context.timerService().registerProcessingTimeTimer()注册;onTimer()在系统时
原创
发布博客 2020.12.08 ·
3238 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

flink table & sql(二)tableAPI

接上篇博客,本篇文章介绍一下tableAPI的基本使用8、table api1、Scan, Projection, and Filter(1)filter,isNotNull(),and,lowerCase(),as,count(),avg(),end,startpackage com.flink.sql.environment.tableAPI;import org.apache.flink.api.common.functions.MapFunction;import org.apache
原创
发布博客 2020.09.23 ·
458 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

flink table & sql(一)table基础概念、环境搭建、source、sink

一、concepts1、表表可以是虚拟(VIEWS)或常规(TABLES)。VIEWS可以从现有Table对象创建,通常是Table API或SQL查询的结果。TABLES描述外部数据,例如文件,数据库表或消息队列。表三部分标识符:目录、数据库、表名。其中,目录、数据库是可选的。tEnv.useCatalog("custom_catalog");tEnv.useDatabase("custom_database");1.1 临时表与永久表表可以是临时的,并与单个Flink会话的生命周期相关,
原创
发布博客 2020.09.23 ·
2021 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Apache Hbase基本概念及Java API

一、Apache Hbase基本概述Apache Hbase是一个基于Hadoop的数据库,它可靠、数据多版本、分布式适合结构化大数据的存储,Apache Hbase是Google BigTable开源实现,基于列储存的菲关系型数据库。(1)列储存和行储存的区别列储存和行储存是指数据子存储介质中的额储存方式**·**关系型数据库(行储存):Oracle、mysql等**·**非关系型数据库(列储存):Hbase、Redis(2)Hbase数据模型及概念(1)主键rowkey:获取数据的唯一
原创
发布博客 2020.09.21 ·
598 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

基于flink broadcast实现目标用户的智能筛选

1、broadcast简介支持Operator State的第三种类型是广播状态,其中需要将来自一个流的某些或者全部数据广播到所有下游任务,广播的状态将存储在本地,用于处理另一个流上所有传入的元素。2、API使用博主分享两个案例分别描述key_broadcast和nonKeyed_broadcast。需求描述:某电商系统,需要通过监控用户的浏览记录,根据不同商品的营销活动规则,筛选出目标用户,实现促销。案例一: nonKeyed_broadcast(1) 实体类准备package com.le
原创
发布博客 2020.08.19 ·
519 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

flink批量(batch)写入mysql/oracle

1、前言博主之前分享过一篇文章,是flink高性能写入关系型数据库,那篇文章的效果虽然可以实现写入数据的高性能,但是牺牲了程序的健壮性,比如遇到不可控因素:数据库重启,连接失效,连接超时等,这样线上运行的程序可能就会出现问题,并且这样的问题可能只会日志打印error,并不会导致程序的挂掉,所以如果出现这样的问题,很难被发现。接下来,博主分享一波源代码,实现流式处理批量写入关系型数据库。整个程序的流量是这样的: kafka->flink->mysql2、driver类描述:flink消费k
原创
发布博客 2020.08.17 ·
10651 阅读 ·
5 点赞 ·
7 评论 ·
43 收藏
加载更多