积微成著
码龄9年
关注
提问 私信
  • 博客:624,979
    问答:1,225
    626,204
    总访问量
  • 111
    原创
  • 346,138
    排名
  • 167
    粉丝

个人简介:每一个你不满意的现在,都有一个你没有努力的曾经。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-01-09
博客简介:

困而学之,学思并重

博客描述:
学而不思则罔,思而不学则殆。
查看详细资料
个人成就
  • 获得199次点赞
  • 内容获得64次评论
  • 获得616次收藏
  • 代码片获得601次分享
创作历程
  • 24篇
    2020年
  • 29篇
    2017年
  • 64篇
    2016年
成就勋章
TA的专栏
  • Flink
    12篇
  • Kafka
    10篇
  • Redis
    2篇
  • Flume
    2篇
  • 笔记
  • Hadoop
    2篇
  • Big Data
    5篇
  • R
    8篇
  • Java
    9篇
  • Hive
    1篇
  • Web Spider
    6篇
  • Time Series
    2篇
  • Machine Learning
    12篇
  • Statistics
    4篇
  • Pandas
    4篇
  • Linux(Ubuntu16.04)
    5篇
  • Python
    33篇
  • Mysql
    4篇
  • Spark
    2篇
  • Git
    2篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink——状态管理

Flink——状态管理1 有状态计算有状态计算是Flink非常重要的特性之一。什么是状态?一般来说,状态是由一个task维护,并用于计算某个结果的所有数据,都属于这个任务的状态。也可以理解为一个本地变量,可以被task的业务逻辑访问。下图展示了一个task与它的state的常规交互过程:task在处理数据时,会先访问state,并根据输入信息和state信息更新state。Flink会处理...
原创
发布博客 2020.05.05 ·
542 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink——Side Output侧输出流

主要内容:在处理数据的时候,有时候想对不同情况的数据进行不同的处理,那么就需要把数据流进行分流。可以在主数据流上产生出任意数量额外的侧输出流。
原创
发布博客 2020.05.03 ·
9101 阅读 ·
7 点赞 ·
2 评论 ·
16 收藏

Flink——实战:EventTime结合Watermark应用案例

主要内容:- 从SocketSource接收数据,时间语义采用EventTime,统计用户在T分钟内的总消费金额。
原创
发布博客 2020.04.26 ·
1050 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Kafka——源码分析:Log、LogSegMent、Index

日志段及其相关代码是 Kafka 服务器源码中最为重要的组件代码之一。接下来对Kafka的日志(Log)、日志段(LogSegment)以及索引(Index)源码进行尝试性分析。
原创
发布博客 2020.04.25 ·
1164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink——原理与实战:AggregateFunction

主要内容:- 介绍AggregateFunction- 案例:从SocketSource接收数据,通过Flink 时间窗口以及AggregateFunction方法统计用户在24小时内的平均消费金额
原创
发布博客 2020.04.25 ·
12720 阅读 ·
3 点赞 ·
2 评论 ·
12 收藏

Flink——Time&Windows&Watermark

主要内容:- 介绍Time、Window、Watermark的基本概念- 介绍几个实现案例
原创
发布博客 2020.04.25 ·
423 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink——原理与实战:RedisSink

主要内容:分析RedisSink源码,并结合具体案例实现Flink将数据写入Redis。
原创
发布博客 2020.04.19 ·
2019 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

Flink——实战之MySQL Sink

主要内容:实现Flink写数据到MySQL,即MySQL Sink。
原创
发布博客 2020.04.18 ·
7510 阅读 ·
1 点赞 ·
1 评论 ·
11 收藏

Flink——实战之Redis Sink

主要内容:实现Flink写数据到Redis,即Redis Sink。
原创
发布博客 2020.04.18 ·
4753 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Spark——消费Kafka数据保存Offset到Redis

主要内容:Scala实现SparkStreaming消费Kafka数据保存Offset到Redis,实现自主维护Offset介绍部分源码SparkStreaming自主维护Offset的流程SparkStreaming启动时,先请求Redis或Hbase;Redis或Hbase返回请求结果,将结果(Topic、Partition、Offset的组合)封装成collectio...
原创
发布博客 2020.04.18 ·
1504 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

Flink——Flink1.10.0整合Kafka之KafkaSource和KafkaSink

主要内容:基于scala代码实现Flink1.10.0实时消费Kafka数据并写入Kafka
原创
发布博客 2020.04.16 ·
4675 阅读 ·
0 点赞 ·
0 评论 ·
11 收藏

Flink——自定义Source

主要内容:介绍Flink自定义Source的使用方法。
原创
发布博客 2020.04.15 ·
4279 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Flink——DataStream API

关于Flink程序的开发流程和具体案例请参考:Flink——从零搭建Flink应用。DataSourceDatasource用于Flink程序读取数据,可通过:StreamExecutionEnvironment.进行配置。内置数据源文件数据源:readTextFile(path):直接读取文本文件;readFile(fileInputFormat, path):读取指定类型的文件...
原创
发布博客 2020.04.13 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink——从零搭建Flink应用

Flink——从零搭建Flink应用主要内容:环境准备创建Flink项目模板编写Flink程序运行测试环境准备Flink执行环境分为本地环境和集群环境,可运行在Linux、Windows和Mac OS上。首先介绍环境依赖:JDK:版本要求:1.8及以上Maven:Flink源码目前仅支持通过Maven进行编译,版本要求:3.0.4及以上Scala:根据开发语言选择是否安...
原创
发布博客 2020.04.12 ·
598 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Kafka——如何理解Kafka的“快”?

据了解,Kafka吞吐量峰值每秒百万,就算在内存个CPU都不高的情况下,最高可达每秒十万,并且还能做到持久化存储。Kafka如此高吞吐率的原因是什么?1 应用层面的优化使用批次:producer和consumer都使用批次进行读写——避免在网络上频繁传输单个消息带来的延迟和宽带开销;高效压缩:将多条消息压缩在一起,而不是分别压缩每条消息,自带压缩方式:GZIP和Snappy。消息在写入时进...
原创
发布博客 2020.04.10 ·
300 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume——开发案例

Flume——开发案例监控端口数据发送到控制台source:netcatchannel:memorysink:logger# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.ty...
原创
发布博客 2020.04.06 ·
283 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume——简介及架构

简介Apache Flume是一个分布式、高可用、高可靠的系统,可以有效地从许多不同的源收集、聚合和移动海量日志数据到集中式数据存储。Flume可用于传输大量事件数据:日志数据网络流量数据社交媒体数据电子邮件消息……优势支持将数据存储到任何集中存储器中,比如HDFS,Hive,HBase;当传入数据的速率超过可以将数据写入目标的速率时,flume充当数据生产者和集中存储之...
原创
发布博客 2020.04.03 ·
652 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka——日志存储原理

Kafka底层数据存储设计topic——>partitions——>segments——>.index&.logKafka中的消息是以topic为基本单位进行组织和分类;每个topic分为多个partition,partition是以文件的形式存储在文件系统中,由参数log.dir配置。如创建了名为first_topic的topic,共有3个分区,那么在...
原创
发布博客 2020.03.31 ·
590 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kafka——简介与架构

Kafka——简介与架构一、简介1.1 概述什么是Kafka:最初由Linkedin公司开发,由scala编写,其诞生是为了解决Linkedin的数据管道问题——由于各种缺陷而导致消息阻塞或者服务无法正常访问;分布式消息队列。Kafka对消息保存时根据topic进行归类,发送消息者称为producer,消息接受者称为consumer,Kafka集群由多个Kafka实例组成,每个实例...
原创
发布博客 2020.03.30 ·
442 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kafka——可靠的数据传递

Kafka——可靠的数据传递kafka的复制机制和分区的多副本架构时kafka可靠性保证的核心。可靠性保证ACID规范:原子性、一致性、隔离性和持久性kafka可以保证分区内消息的顺序只有当消息被写入分区的所有同步副本时(但不一定写入磁盘),才被称为“已提交”的消息只要还有一个副本时活跃的,那么已提交的消息就不会丢失消费者只能读取已提交的消息复制复制功能是kafka架构的...
原创
发布博客 2020.03.30 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多