使用OpenSearch为应用提供搜索功能

本文介绍了如何利用OpenSearch为应用提供搜索功能,通过爬取丁香医生的健康科普文章并同步到OpenSearch,实现数据对接和前端调用。在优化过程中,进行了用户查询分析、搜索结果排序和自定义分词等操作。
摘要由CSDN通过智能技术生成

创业公司,一切从简,这里用OpenSearch搭建一个健康科普文章的搜索服务,为应用提供搜索功能。

说到健康科普,当属我一直关注的丁香医生了,几千篇正牌医生针对自己擅长的领域写出来的文章,权威性很高。不像百度出来的一片片盗版文档,毫无可信度可言。老码农作为资深鼻炎患者,感受颇深。
所以这次就用这些健康科普文章来做次实验。

声明

丁香医生的科普文章是经过高价约稿,专家组评审最后才发布出来的,产生成本很高,是禁止任何形式的转载的!
这里的数据只做自己研究之用,后面demo中的搜索结果出来之后,如果要看文章详情,我也都跳转到丁香医生的文章详情h5页面。

数据源

数据爬取

先把丁香医生的几千篇健康科普文章爬下来,都是结构化的数据,包含文章的title、content、time、author、org等信息,dump到阿里云的ODPS上。
为了避免给丁香医生服务器造成压力,设置了爬取间隔。
这里本来还有一大段介绍爬取过程的技术细节,后来都删除了,以免给丁香医生的正常服务造成不必要的困扰。

同步到OpenSearch

可以直接设置OpenSearch的数据源为ODPS数据表,同时进行索引,完全傻瓜式操作。
第一次要做全量索引,时间稍长,花了10+分钟的样子,同样的数据量,比自己的单机Lucene全量索引要慢很多。云平台的速度优势要靠大数据量来验证。

这里针对索引的数据段做一下说明。
1、文章内容content、标题title两个字段使用中文基础分词,使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值