ElasticSearch实用化订单搜索方案

前言:

站外推广系统订单报表一直是一个痛点,研究后选择ES搜索引擎进行改造。上线来遇到很多问题,经历了很多的修改,现在系统终于正常运行,满足订单报表大数据量、实时更新、响应快、多维度查询的需求。

文章原本是用ppt来编写的,这里只能修改为图片来展示。

一、为什么选择ES

搜索引擎中,主要考虑到ES支持结构化数据查询以及支持实时频繁更新特性:

 

二、总体系统架构

整个业务线使用服务化方式,ES集群和数据库分库,作为数据源被订单服务系统封装为对外统一接口;各前后台应用和报表中心,使用服务化的方式获取订单数据。

三、数据更新设计

ES数据更新有批量更新和实时更新两种:

1、手动更新为初始化数据,或者修复数据时使用

2、实时更新通过监控数据库订单表的binlog,进行实时同步

四、机器、索引、参数配置

五、索引结构图

六、机器性能选择

对于频繁更新一定要考虑到使用SSD

七、文档id选择

因为是订单数据,并且有频繁数据更新,所以我们选择自己指定的唯一id,具体对比如下:

八、实时更新数据方案

实时数据更新采用监听数据库binlog的方式实现:

九、数据一致性解决方案

不一致原因:

1、各域代码发布

2、网络延时

3、集群故障

4、vdp、vms丢数据

 

解决方案:

1、使用调度任务,每天对比三个月内每天的数据

2、如果存在数据不一致,自动批量同步当天数据

3、数据不一致,自动发送告警邮件

4、调度任务可随时手动终止

5、至今尚未出现不一致的情况

 

十、数据更新、查询接口

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首先,text2vec是一个用于文本向量化的R语言包,它可以将文本转换成数值向量,同时提供了一些常见的向量化方法,例如word2vec, GloVe, fasttext等。而Elasticsearch是一个基于Lucene搜索引擎的开源搜索和分析引擎,它支持全文搜索、结构化搜索、地理位置搜索等。 要使用text2vec和elasticsearch做向量化搜索,一般有以下几个步骤: 1. 使用text2vec将文本转换成数值向量,可以选择合适的向量化方法。 2. 将向量化后的文本存储到elasticsearch中,可以使用elasticsearch的bulk API进行批量插入。 3. 在elasticsearch中创建一个索引,可以选择合适的分词器和搜索器,同时指定向量字段的类型为dense_vector。 4. 执行搜索时,先使用text2vec将查询文本转换成向量,再使用elasticsearch的dense_vector类型的查询进行向量化搜索。 下面是一个简单的R语言示例代码,用于将文本向量化并插入到elasticsearch中: ```R library(text2vec) library(elasticsearch) # 加载数据 data("movie_review") # 使用word2vec将文本向量化 model <- create_word2vec(movie_review$review, iter = 10, threads = 4) vectors <- t(t(apply(model$wv, 1, function(x) x / sqrt(sum(x^2))))) # 连接elasticsearch es <- connect(host = "localhost", port = 9200) # 批量插入向量数据 docs <- lapply(seq_along(movie_review$review), function(i) { list( _index = "movie_reviews", _type = "review", _id = i, _source = list( review = movie_review$review[i], rating = movie_review$rating[i], vector = as.list(vectors[i, ]) ) ) }) bulk(es, docs) ``` 在elasticsearch中创建索引和查询时,可以参考官方文档的说明。注意,在使用向量化搜索时,需要使用elasticsearch的dense_vector类型的查询,例如: ```json { "query": { "script_score": { "query": { "match_all": {} }, "script": { "source": "cosineSimilarity(params.queryVector, 'vector') + 1.0", "params": { "queryVector": [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0] } } } } } ``` 其中,cosineSimilarity是elasticsearch提供的计算余弦相似度的函数,params.queryVector是查询向量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值