![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
Raycee
这个作者很懒,什么都没留下…
展开
-
何时以及如何在 Apache Flink 中使用 RocksDB 状态后端
何时以及如何在 Apache Flink 中使用 RocksDB 状态后端Flink中的状态什么是RocksDB?Flink中的RocksDB什么时候使用RocksDBStateBackend如何使用RocksDBStateBackend集群级别作业级别最佳实践和高级配置状态在RocksDB中的位置RocksDB故障诊断总结流处理应用程序通常是有状态的,“记住”已处理事件中的信息,并使用它来影响进一步的事件处理。在Flink中,记住的信息,即状态,被本地存储在配置的状态后端中。为了防止发生故障时丢失数据,翻译 2021-03-17 19:16:53 · 2625 阅读 · 4 评论 -
Flink 1.10 发布到自建Maven仓库,报Could not transfer artifact 。。。
报错:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-deploy-plugin:2.8.2:deploy (default-deploy) on project force-shading: Failed to deploy artifacts: Could not transfer artifact org.apac...原创 2020-03-03 12:12:45 · 1417 阅读 · 0 评论 -
Flink 1.10 编译报: unreported exception X; must be caught or declared to be thrown
jenkins上的jdk版本为jdk1.8.0_60,同事使用的是1.8.91都会报这个错,可能Flink使用的特性需要特定的小版本支持,测试过jdk1.8.0_141,1.8.221都可以。欢迎关注公众号:大数据开发者...原创 2020-03-03 12:03:36 · 2399 阅读 · 0 评论 -
Flink线上问题: The assigned slot container_xxx was removed
Flink线上问题: The assigned slot container_xxx was removed客户现场使用Flink(on Yarn)进行数据抽取,Source是JDBC,Sink是Kafka,客户反映流程差不多跑10天左右就挂,让我看看.环境:Flink: 1.5.2jdk: 1.8.0_25Hadoop: 2.4.1jobmanger和TaskManger都分配1G内...原创 2019-12-27 14:19:06 · 5334 阅读 · 0 评论 -
Flink Broadcast State实用指南
从1.5.0开始,Flink提供了一种新的State类型,称为Broadcast State。在这篇文章中,我们将解释什么是Broadcast State,并展示如何将其应用于评估事件流上的动态模式的应用的示例。我们将向您介绍处理步骤和源代码,以实现此应用。什么是Broadcast State?Broadcast State可用于以特定方式组合和联合处理两个事件流。第一个流的事件被广播到一个算...翻译 2019-06-27 19:24:17 · 3522 阅读 · 1 评论 -
Flink源码阅读:如何使用FlinkKafkaProducer将数据在Kafka的多个partition中均匀分布
使Flink输出的数据在多个partition中均匀分布FlinkKafkaProducerBase的子类可以使用默认的KafkaPartitioner FixedPartitioner(只向partition 0中写数据)也可以使用自己定义的Partitioner(继承KafkaPartitioner),我觉得实现比较复杂.构造FlinkKafkaProducerBase的子类的2种情况 p原创 2017-12-15 22:39:09 · 7510 阅读 · 0 评论 -
Flink源码阅读:流中的四种值类型
Flink DataStream中的四种值类型DataStream中有的元素有四种类型,分别是Watermark,StreamStatus,StreamRecord和LatencyMarker.它们都是StreamElement的子类.继承关系图:Watermark指示元素timestamp小等于watermark的值都已经到了,算子通过调用org.apache.flink.streaming.ap原创 2017-12-13 11:56:58 · 1844 阅读 · 0 评论 -
将Hive数据库存储格式转换为orc
Hive的存储格式textfilehive的默认存储格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分SequenceFile二进制文件,以Hive导入数据的几种方式从本地文件系统中导入load data local inpath 'customer .data' into table customer;从HDFS上导入load da原创 2017-03-17 12:54:07 · 14856 阅读 · 1 评论 -
Hive 不支持 intersect 的解决办法
问题有一个SQL语句要在hive里执行但是hive不支持intersect,所以要使用其他方法代替思路intersect就是取交集,可以使用inner join进行连接然后取其中一列并去重原SQLselect s_store_name ,sum(ss_net_profit) from store_sales ,date_dim ,store, (sele原创 2017-03-17 12:55:04 · 7683 阅读 · 0 评论 -
Zeppelin 的安装及简单使用
下载首先到zepplin官网下载Binary package with all interpreters包安装解压: tar -zxvf zeppelin-x.x.x-bin-all.tgz到conf目录把zeppelin-site.xml.template复制一份为zeppelin-site.xml,更改zeppelin.server.port的值以免和其他应用的端口冲突把zeppelin-env原创 2017-03-06 22:00:40 · 1322 阅读 · 0 评论