创业公司,一切从简,这里用OpenSearch搭建一个健康科普文章的搜索服务,为应用提供搜索功能。
说到健康科普,当属我一直关注的丁香医生了,几千篇正牌医生针对自己擅长的领域写出来的文章,权威性很高。不像百度出来的一片片盗版文档,毫无可信度可言。老码农作为资深鼻炎患者,感受颇深。
所以这次就用这些健康科普文章来做次实验。
声明
丁香医生的科普文章是经过高价约稿,专家组评审最后才发布出来的,产生成本很高,是禁止任何形式的转载的!
这里的数据只做自己研究之用,后面demo中的搜索结果出来之后,如果要看文章详情,我也都跳转到丁香医生的文章详情h5页面。
数据源
数据爬取
先把丁香医生的几千篇健康科普文章爬下来,都是结构化的数据,包含文章的title、content、time、author、org等信息,dump到阿里云的ODPS上。
为了避免给丁香医生服务器造成压力,设置了爬取间隔。
这里本来还有一大段介绍爬取过程的技术细节,后来都删除了,以免给丁香医生的正常服务造成不必要的困扰。
同步到OpenSearch
可以直接设置OpenSearch的数据源为ODPS数据表,同时进行索引,完全傻瓜式操作。
第一次要做全量索引,时间稍长,花了10+分钟的样子,同样的数据量,比自己的单机Lucene全量索引要慢很多。云平台的速度优势要靠大数据量来验证。
这里针对索引的数据段做一下说明。
1、文章内容content、标题title两个字段使用中文基础分词,使