大数据
大卫云
从事大数据相关十余年,尘世中一个迷途小书童。
展开
-
Kafka版本演进
Kafka版本演进 Kafka总共发布了7个大版本,分别是0.7.x、0.8.x、0.9.x、0.10.x、0.11.x、1.x及2.x版本。截止目前,最新版本是Kafka 2.4.0,也是最新稳定版本。 0.7.x版本 这是很老的Kafka版本,它只有基本的消息队列功能,连消息副本机制都没有,不建议使用。 0.8.x版本 两个重要特性,一个是Kafka 0.8.0增加了副本机制,另一个是Kafka 0.8.2.0引入了新版本Producer API。 0.9.x版本 Kafka 0.9 是一原创 2020-09-15 19:25:32 · 232 阅读 · 0 评论 -
Kafka之consumer--rebalance流程
重平衡(rebalance) 旧版本Kafka依托于Zk进行rebalance,新版本consumer使用了Kafka内置的一个全新的组协调协议。对于每个组而言,Kafka的某个broker会被选举为组协调者(coordinator)。 触发条件: 1.组成员发生变更。 2.组订阅topic数发生变更。比如使用基于正则表达式的订阅,当匹配正则表达式的新topic被创建时则会触发rebalance 3.组订阅topic的分区数发生变更。比如使用命令行脚本增加了订阅topic的分区数。 分...转载 2020-09-14 19:37:10 · 423 阅读 · 0 评论 -
Flink如何管理Kafka consumer
在我们Flink Friday Tip的这一集中,我们将逐步说明Apache Flink如何与Apache Kafka协同工作,以确保Kafka主题的记录以一次性保证进行处理。 检查点是Apache Flink的内部机制,可以从故障中恢复。检查点是Flink应用程序状态的一致副本,包括输入的读取位置。如果发生故障,Flink将通过从检查点加载应用程序状态并从恢复的读取位置继续恢复应用程序,就像没有发生任何事情一样。您可以将检查点视为保存计算机游戏的当前状态。如果你在游戏中保存了自己的位置后发生了什么事情,转载 2020-09-08 19:58:10 · 555 阅读 · 0 评论 -
Flink集群搭建一篇就够了
Flink支持多种安装模式。 local(本地)——单机模式,一般不使用 standalone——独立模式,Flink自带集群,开发测试环境使用 yarn——计算资源统一由Hadoop YARN管理,生产环境测试 Standalone模式 步骤 1. 解压flink压缩包到指定目录 2. 配置flink 3. 配置slaves节点 4. 分发flink到各个节点 5. 启动集群 6. 提交WordCount程序测试 7. 查看Flink WebUI 具体操作 1. 上...转载 2020-09-07 19:48:43 · 1667 阅读 · 0 评论 -
最好的计算框架flink
1、背景 Flink认为有界数据集是无界数据流的一种特例,所以说有界数据集也是一种数据流,事件流也是一种数据流。 在国外一些社区,有很多人将大数据的计算引擎分成了4 代,当然也有很多人不会认同。 第1代——Hadoop MapReduce 第2代——DAG框架(Tez) + MapReduce 第3代——Spark 第4代——Flink 2、快速入门 Flink 应用程序结构主要包含三部分,Source/Transformation/Sink Sourc.转载 2020-08-25 21:58:43 · 168 阅读 · 0 评论 -
2020-08-06
1、简介 注册中心可以用Eureka等技术来实现,但是为了更好的扩展下知识层面,所以这次就使用Zookeeper作为注册中心,搭建一下以Zookeeper作为注册中心的微服务项目。 2、win10 下安装 ZooKeeper ZooKeeper 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/ 注意下载版本和spring cloud 的版本要对应。 下载后解压目录,拷贝到某个路径下,要在zookeeper下新建...原创 2020-08-06 20:52:02 · 100 阅读 · 0 评论 -
ElasticSearch和Solr到底该选哪个
1 什么是全文索引 全文检索:对非结构化数据顺序扫描很慢,我们是否可以进行优化?把我们的非结构化数据想办法弄得有一定结构不就行了吗? 将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。 这种方式就构成了全文检索的基本思路。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。 还以读报纸为例,我们想关注英雄联盟 S8 全球总决赛的新闻,假如都是 RNG 的粉丝,如何快速找到 RNG 新闻的报纸和版块呢? 全文原创 2020-07-05 21:00:56 · 785 阅读 · 0 评论 -
为什么要用redis
1 redis是NOSQL 1.1.什么是NOSQL NoSQL(NoSQL = Not Only SQL),意即“不仅仅是SQL”,是一项全新的数据库理念,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。原创 2020-07-05 16:04:07 · 165 阅读 · 0 评论