bert+es7实现相似度搜索(待测试与更新bert中文预处理模型)

本文档介绍了如何利用BERT模型和Elasticsearch7实现文本相似度搜索。通过docker启动Elasticsearch及BERT服务,创建包含BERT向量的index映射,处理数据并导入,然后对比BERT与Elasticsearch内置的more_like_this(MLT)方法在搜索准确度上的表现。实验结果显示BERT在寻找相似句方面表现出优势。
摘要由CSDN通过智能技术生成

步骤与代码参考:https://github.com/Hironsan/bertsearch
https://github.com/hanxiao/bert-as-service
https://towardsdatascience.com/semantics-at-scale-bert-elasticsearch-be5bce877859

待测试:使用中文预处理bert模型进行相似度搜索的准确度
以下为参考以上文献进行英文句子相似度搜索:
在这里插入图片描述
1.docker启动es7与bertservice
此步参考https://github.com/Hironsan/bertsearch中docker-compose up

version: '3.7'
services:
#  web:
#    build: ./web
#    ports:
 #     - "5000:5000"
  #  environment:
   #   - INDEX_NAME
   # depends_on:
   #   - elasticsearch
   #   - bertserving
   # deploy:
   #  resources:
   #     limits:
   #        memory: 500M

  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.7.1
    ports:
      - "9200:9200"
    volumes:
      - es-data:/usr/share/elasticsearch/data
    tty: true
    environment:
      discovery.type: single-node
    deploy:
     resources:
        limits:
           memory: 1G

  bertserving:
    build: ./bertserving
    ports:
      - "5555:5555"
      - "5556:5556"
    environment:
      - PATH_MODEL=${
   PATH_MODEL} 
    volumes:
      - "${PATH_MODEL}:/model"
    deploy:
     resources:
        limits:
           memory: 8G #bert-service运行需要高内存占用
volumes:
  es-data:
    driver: local

export PATH_MODEL=./cased_L-12_H-768_A-12
bert模型路径

<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值