SpringBoot整合Canal实现数据同步到ElasticSearch,2024年最新2024年字节跳动、阿里等大厂大数据开发面试题

本文介绍了如何利用SpringBoot整合Canal监听MySQL数据变化,将数据同步到ElasticSearch,同时涉及Canal的配置、启动、Canal-Admin的搭建以及RabbitMQ的配置。详细步骤包括Canal和Canal-Admin的下载、启动,SpringBoot项目添加依赖、创建监听类以及配置RabbitMQ进行数据同步。
摘要由CSDN通过智能技术生成

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
img

正文

image-20221213093731336

四、Canal的配置和启动

4.1 下载Canal

Canal的下载:

  • 官方文档:https://github.com/alibaba/canal/wiki
  • 项目地址:https://github.com/alibaba/canal
  • 下载地址:https://github.com/alibaba/canal/releases

进入下载地址,选择Canal下载,我这里下载的是windows版本,如果你是linux版本的可以选择不同的版本下载,也可以使用docker搭建

image-20221213095119709

4.2 修改canal配置

image-20221213095448600

# position info 你的MySQL的主机和端口
canal.instance.master.address=127.0.0.1:3306
# username/password 连接MySQL的用户名和密码
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8

4.3 启动Canal

在canal.deployer-1.1.7-SNAPSHOT\bin目录下,双击startup.bat即可启动

image-20221213095832279

image-20221213095852682

查看是否启动成功:

image-20221213095940740

  • 20
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实现MySQL数据同步Elasticsearch,可以使用Easy-Es和Canal组合的方式。其中,Easy-Es是一个开源的Elasticsearch操作框架,可以方便地进行数据的增删改查等操作。Canal阿里巴巴开源的基于数据库增量日志解析工具,可以实时地捕获MySQL数据库的增量日志,从而实现MySQL数据的实时同步。 下面是具体的步骤: 1. 首先,在Spring Boot中引入Easy-Es和Canal的依赖包: ```xml <dependency> <groupId>com.alibaba.otter</groupId> <artifactId>canal.client</artifactId> <version>1.1.4</version> </dependency> <dependency> <groupId>com.github.yingzhuo</groupId> <artifactId>easy-es-spring-boot-starter</artifactId> <version>1.3.0</version> </dependency> ``` 2. 在application.properties中配置CanalElasticsearch的相关信息: ```properties # Canal配置 canal.server.ip=127.0.0.1 canal.server.port=11111 canal.server.destination=test canal.server.username= canal.server.password= # Elasticsearch配置 spring.elasticsearch.rest.uris=http://localhost:9200/ spring.elasticsearch.rest.username= spring.elasticsearch.rest.password= ``` 3. 创建CanalClient用于监听MySQL的增量日志,并将变更的数据同步Elasticsearch中: ```java @Component public class CanalClient { @Autowired private ElasticsearchTemplate elasticsearchTemplate; @PostConstruct public void init() { CanalConnector connector = CanalConnectors.newSingleConnector( new InetSocketAddress(environment.getProperty("canal.server.ip"), Integer.parseInt(environment.getProperty("canal.server.port"))), environment.getProperty("canal.server.destination"), environment.getProperty("canal.server.username"), environment.getProperty("canal.server.password")); new Thread(() -> { try { connector.connect(); connector.subscribe(".*\\..*"); while (true) { Message message = connector.getWithoutAck(1000); long batchId = message.getId(); if (batchId == -1 || message.getEntries().isEmpty()) { continue; } List<CanalEntry.Entry> entries = message.getEntries(); for (CanalEntry.Entry entry : entries) { if (entry.getEntryType() == CanalEntry.EntryType.ROWDATA) { CanalEntry.RowChange rowChange = CanalEntry.RowChange.parseFrom(entry.getStoreValue()); String tableName = entry.getHeader().getTableName(); String databaseName = entry.getHeader().getSchemaName(); switch (rowChange.getEventType()) { case INSERT: case UPDATE: List<Map<String, Object>> dataList = new ArrayList<>(); for (CanalEntry.RowData rowData : rowChange.getRowDatasList()) { Map<String, Object> data = new HashMap<>(); for (CanalEntry.Column column : rowData.getAfterColumnsList()) { data.put(column.getName(), column.getValue()); } dataList.add(data); } elasticsearchTemplate.bulkIndex(dataList, IndexCoordinates.of(databaseName, tableName)); break; case DELETE: List<String> idList = new ArrayList<>(); for (CanalEntry.RowData rowData : rowChange.getRowDatasList()) { Map<String, Object> data = new HashMap<>(); for (CanalEntry.Column column : rowData.getBeforeColumnsList()) { if (column.getIsKey()) { idList.add(column.getValue()); } } } elasticsearchTemplate.bulkDelete(idList, IndexCoordinates.of(databaseName, tableName)); break; default: break; } } } connector.ack(batchId); } } catch (Exception e) { connector.rollback(); } finally { connector.disconnect(); } }).start(); } } ``` 4. 如果需要支持全量数据同步,可以使用Easy-Es提供的bulkIndex接口,实现将MySQL中的所有数据同步Elasticsearch中: ```java @Autowired private ElasticsearchTemplate elasticsearchTemplate; @Autowired private JdbcTemplate jdbcTemplate; @PostConstruct public void init() { elasticsearchTemplate.deleteIndex(User.class); elasticsearchTemplate.createIndex(User.class); elasticsearchTemplate.putMapping(User.class); List<User> userList = jdbcTemplate.query("SELECT * FROM user", BeanPropertyRowMapper.newInstance(User.class)); elasticsearchTemplate.bulkIndex(userList); } ``` 5. 如果需要支持增量数据同步,可以在CanalClient中增加一个定时任务,定时从MySQL中查询出最新数据,并将数据同步Elasticsearch中: ```java @Scheduled(fixedRate = 5000) public void syncData() { List<User> userList = jdbcTemplate.query("SELECT * FROM user WHERE update_time > ?", new Object[]{lastUpdateTime}, BeanPropertyRowMapper.newInstance(User.class)); if (!userList.isEmpty()) { elasticsearchTemplate.bulkIndex(userList); lastUpdateTime = userList.get(userList.size() - 1).getUpdateTime(); } } ``` 通过以上步骤,就可以实现MySQL数据同步Elasticsearch,并且支持全量和增量刷新数据了。另外,如果需要支持Kafka,可以在CanalClient中增加一个KafkaProducer,将变更的数据发送到Kafka中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值