编程理想国
码龄8年
关注
提问 私信
  • 博客:46,611
    问答:899
    47,510
    总访问量
  • 35
    原创
  • 343,672
    排名
  • 488
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2016-10-11
博客简介:

十二

博客描述:
热爱大数据,坚持成长。
查看详细资料
个人成就
  • 获得103次点赞
  • 内容获得9次评论
  • 获得602次收藏
  • 代码片获得381次分享
创作历程
  • 11篇
    2022年
  • 4篇
    2021年
  • 5篇
    2020年
  • 20篇
    2019年
  • 2篇
    2018年
成就勋章
TA的专栏
  • 解决方案
    4篇
  • 源码阅读
    4篇
  • Java
  • Python
    6篇
  • 大数据
    22篇
  • Hadoop
    6篇
  • Flink
    12篇
  • ZooKeeper
    1篇
  • Flume
    3篇
  • Hive
    2篇
  • 算法
    10篇
兴趣领域 设置
  • 大数据
    hadoophivestormspark
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

343人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink CDC:io.debezium.connector.mysql.SnapshotReader] - Can‘t call rollback when autocommit=true

项目场景:Flink CDC实时同步Mysql数据问题描述:[io.debezium.connector.mysql.SnapshotReader] - Failed due to error: Aborting snapshot due to error when last running ‘UNLOCK TABLES’: Can’t call rollback when autocommit=true:2022-02-26 16:31:30,002 ERROR [io.debezium.c
原创
发布博客 2022.02.26 ·
1322 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

【Flink从入门到精通 05】Source&Sink

Flink用于处理有状态的流式计算,需要对Source端的数据进行加工处理,然后写入到Sink端,下图展示了在Flink中数据所经历的过程,今天就根据这张图分别给大家分享下。01 EnvironmentFlink所有的程序都从这一步开始,只有创建了执行环境,才能开始下一步的编写。可以使用如下方式获取运行环境:(1)getExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文如果程序是独立调用的,则此方法返回本地执行环境如果从命令行客户端调用程序以提交到集群,则此方
原创
发布博客 2022.02.20 ·
2989 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

【Flink从入门到精通 04】状态管理与容错机制

在关于Flink的流式处理概念一文中,我们提到了Flink是有状态的流式处理框架,今天我们就来好好聊一聊状态。01 什么是状态先来复习一下,什么是状态?来思考一个无状态计算的场景:无状态计算案例:消费延迟计算消息队列一个生产者持续写入多个消费者组分别读取如何实时统计每个消费者落后多少条数据?观察数据样例,可以发现,每条消息中包含了生产者、消费者的信息,通过将消费者的信息与生产者对比,即可判断出每个消费者落后的数据。数据样例:输入:{ "timestamp": 1555635
原创
发布博客 2022.02.20 ·
810 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Flink从入门到精通 03】运行时架构

知其然,知其所以然,通过之前的文章,我们已然了解了如何编写一个Flink程序并提交运行,那么这个程序是如何在集群中运行的呢?今天,就给大家分享下Flink的运行时架构。01 运行时组件观察上图,可以看到,Flink作业在执行过程中会涉及到作业管理、资源管理、任务管理、分发器等部分。我们来逐个分析:(1)作业管理器(JobManager)作业管理器是控制应用程序的主进程。通常涉及以下结构:作业图(JobGraph)逻辑数据流图(logical dataflow graph)类、库及其他
原创
发布博客 2022.02.20 ·
1093 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink从入门到精通 02】DataStream API

在之前的文章中,我们介绍了Flink的安装部署、基础概念,今天我们来一起学习Flink的核心之一DataStream API。01 分布式流处理基础上图中,我们将整个代码分为了三个部分,即分布式流处理的基本模型:SourceTransformationSink从而,我们可以给出Flink编程框架:// 1. 获取运行环境final StreamExecutionEnvironment env = StreamExecutionEnvironment.ge
原创
发布博客 2022.02.20 ·
1184 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

【Flink从入门到精通 01】流式处理概念

“Flink中流式处理的概念是实时计算的基石,也是你踏入Flink的第一步。”今天和大家一起聊聊流式处理的通用概念。如果还不清楚这些概念的同学,今天的分享一定会给你带来收获的。关于Flink,之前的《Flink入门安装》可以先看看。01 Flink 是什么在讲流式处理的通用概念之前,我们先引用Flink官网的一段话:Apache Flink is a framework and distributed processing engine for stateful computations ov.
原创
发布博客 2022.02.20 ·
1183 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

FlinkTaskManager启动失败:Error: VM option ‘UseG1GC‘ is experimental and must be enabled via -XX:+Unlock

Flink TaskManager启动失败:Error: VM option 'UseG1GC' is experimental and must be enabled via -XX:+UnlockExperimentalVMOptions.
原创
发布博客 2022.01.16 ·
3018 阅读 ·
2 点赞 ·
1 评论 ·
6 收藏

【学会了学会了】Flink官网翻译——Table API实时报表

Table API实现实时报表(Real Time Reporting with the Table API)Apache Flink offers a Table API as a unified, relational API for batch and stream processing, i.e., queries are executed with the same semantics on unbounded, real-time streams or bounded, batch data
翻译
发布博客 2022.01.10 ·
558 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【学会了学会了】Flink官网翻译——Standalone以及YARN部署

flink官网翻译
翻译
发布博客 2022.01.04 ·
969 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink从入门到精通 00】流式处理概念Mac上搭建Flink 1.14.0环境并编写Demo

Mac上搭建Flink 1.14.0环境并编写Demo1. 准备环境这里主要介绍Mac系统下的环境搭建,其他操作系统可直接查看官网或者我个人的翻译博客1.1 安装并查看Java版本号Flink要求Java版本为Java8或Java11及以上。java -version1.2 安装Flink查看Flink信息brew info apache-flink安装Flinkbrew install apache-flink1.3 检查安装flink
原创
发布博客 2022.01.01 ·
2527 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

Bug日记:No compiler is provided in this environment.Perhaps you are running on a JRE rather than a JDK

Bug描述:原因:JDK环境没有正确加载。解决方案:检查Java环境java -version重新加载配置在idea的终端界面运行:source ~/.bash_profile重新打包,问题解决啦
原创
发布博客 2022.01.01 ·
205 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【学会了学会了】Flink官网翻译——Flink集群部署概览

Flink集群部署模式概览
翻译
发布博客 2021.12.27 ·
505 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

【学会了学会了】Flink官网翻译——踏出第一步(First Steps)

Flink官网安装运行翻译
翻译
发布博客 2021.12.24 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Bug日记—女友特别篇】ERROR 1045: Access denied for user: ‘root@localhost‘ (Using password: NO)

hello 大家好 这里是十二今天迷迷糊糊的的宝贝把Mysql的密码给忘了这可怎么办呢。。。。
原创
发布博客 2021.09.13 ·
185 阅读 ·
1 点赞 ·
4 评论 ·
0 收藏

Hadoop3.1.3 Wordcount报错

答:

本地运行的?尝试修改下Java 堆内存大小。

回答问题 2021.09.02

【源码阅读】HDFS FileSystem的创建

HDFS Client源码阅读FileSystem的创建过程完整代码流程如图fs = FileSystem.get(uri, conf, user);通过FileSystem.get(uri,conf,user)方法获取FileSystem实例。get(uri,conf,user)方法首先验证Kerberos认证获取用户组信息调用FileSystem.get(uri,conf)获取FileSystem实例FileSystem.get(uri,conf);获取schema和授权
原创
发布博客 2021.08.25 ·
441 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ReduceTask工作机制与MapReduce分区

ReduceTask工作机制与MapReduce分区ReduceTask工作机制copy阶段:将Map任务的结果拉取到reduce节点merge阶段:将所有Map任务的结果进行合并sort阶段:对合并后的结果进行归并排序reduce方法:对排序后的结果按key调用reduce方法ReduceTask并行度ReduceTask的数量可以手动设置:job.setNumReduceTasks(2);Tips::ReduceTask=0,表示没有Reduce阶段ReduceTask默认
原创
发布博客 2020.10.09 ·
329 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Hadoop】MapTask运行机制

MapTask运行机制MapTask流程Tips:Mr切片是逻辑切分,HDFS的分块是物理切分split与block是一对一的关系map阶段所有的排序都是针对key进行排序,不会针对value流程分析:TextInputFormat读取文件,并调用getSplits()函数对文件进行逻辑分片,一个split对应一个blockRecordReader读取一个split,调用一次map函数,并将结果输出到环形缓冲区缓冲区内部对结果进行分区(partition),分区规则是key的has
原创
发布博客 2020.10.07 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop权威指南PDF分享

Hadoop权威指南PDF分享链接:https://pan.baidu.com/s/1oF0HPcePFc2pWF29LXsO1Q提取码:tqxt如果链接失效,加我领取:yp2595809239
原创
发布博客 2020.10.06 ·
3794 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏

官网阅读——走近Spark之QuickStart

首先,官网表明了Spark2.0之后,RDD被DataSet替代了,虽然Spark2.0仍然支持RDD的接口,但是官方强烈推荐使用DataSet。安全Spark的安全机制默认是被关闭的,所以有可能会受到攻击,但实际生产过程中,Spark集群更多的是搭建在公司内网中,不对外暴露,个人认为不开启安全机制并不影响。Spark Shell的使用SparkShell是学习SparkAPI的一种方式,同时是一款交互式的数据分析工具。官网提供了Scala和Python两种方式的例子,这里以Python为主。官网
原创
发布博客 2020.06.16 ·
349 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多