搜索平台实践

最新推荐文章于 2024-09-21 17:07:20 发布

学无止境-逆流而上

最新推荐文章于 2024-09-21 17:07:20 发布

阅读量102

点赞数

文章标签：大数据数据库 java mysql 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ITbasketplayer/article/details/115322042

版权

一、背景

此搜索平台主要解决以下场景问题：

大数据下的模糊检索、范围查询、聚合分析，mysql实现比较吃力。
半结构化数据的存取(比如日志)，mysql无法做到nosql动态扩展字段。
数仓、数分统计的hive表，通过搜索平台高效快速接入并同步数据，对外提供服务。(搜索平台也是数据中台的在线查询服务)
推荐系统的推荐池存取，k2i(基于关键字召回item)引擎实现等。
app搜索(文本召回，分词器定制等)。

二、实现

admin UI设计：

提供集群节点上线、下线，以及基础的监控、报警功能；在线集群、离线集群区分【集群管理】。
提供简洁、高效的接入页面，以及数据表查询和导出功能【业务接入、查询管理】。
提供索引节点调度管理页面，索引日志查看功能【索引节点管理】。

索引节点设计：

对于离线结构化的数据源(比如hive,mysql)，接入页面可直接选择库、表、字段，审核通过即可同步数据；hive同步数据采用hive-solr组件(基于开源二次开发)；mysql同步数据先用sqoop转成hive外表，再hive-solr。(主要借助大数据集群优势快速索引，也可自写索引组件)
binlog实时数据源采用canal作为CDC方案。
kafka实时数据源目前只支持zookeeper配置，后续可支持broker配置；借助kafka保证数据写入顺序(key相同写同一个partition)
rpc、http索引支持，主要满足不同业务服务端需要。

统一查询服务：

rpc服务(基于dubbo)
http服务

搜索平台架构图

注：基于历史原因，我们使用solr作为底层引擎，其实elasticsearch在吞吐、延时、成本、sql支持等方面更有优势，后续将重构成基于elasticsearch实现。

三、页面原型

hive接入页面

第一步

第二步

第三步

业务接入列表页面

业务查询页面

索引节点管理页面

集群节点管理页面

统一查询接口

学无止境-逆流而上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。