【金猿技术展】专利智能语义检索——基于预训练的语义排序

智慧芽利用深度学习、自然语言处理和预训练模型,打造专利智能语义检索系统,实现了全球多语言专利文本的自动化分析和智能检索。该系统包括多语言翻译系统、实体知识库和语义排序系统,通过BERT孪生网络和DSSM架构优化检索效果,提供精准的语义检索服务。技术已应用于全球TB级专利文本,并获得多项国家级资质荣誉。
摘要由CSDN通过智能技术生成

19127f8928c535b61b990b80e7a83be4.png

智慧芽技术

本项目由智慧芽投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜榜单及奖项”评选。

eff775e0c358169320d9b0939ff78898.png




数据智能产业创新服务媒体

——聚焦数智 · 改变商业



通过深度学习、自然语言处理以及预训练语言模型等前沿人工智能技术的运用,实现在海量全球多语言专利文本中进行自动化、智能化的数据分析与文本挖掘,进一步实现深层次语义分析,为用户提供更加精准地语义检索服务。

从不同的数据源入手,智慧芽进行了细粒度地文本实体抽取、实体关联、问题关联、领域关联、特征选择等方面的数据治理,通过领域语义图谱、文本/图片训练样本和预训练模型等,通过自研机器翻译引擎系统,智慧芽打通了不同专利文本之间的语言壁垒,使得面向全球TB级专利文本的分析、检索以及语义挖掘成为可能。

专利智能语义检索系统,主要在专利预训练语言模型的基础上,基于DSSM架构采用BERT孪生网络来获取文本的浅层语义信息,在检索层面,采用传统关键词检索以及向量检索相结合的方式,既保证了检索结果的覆盖率,也保证了检索结果的相关性。通过基于预训练语言模型的智能语义排序方法的应用,智慧芽专利智能语义检索系统取得了巨大的技术突破以及商业价值。

同时,相关技术已经获得了专利授权:CN112800779B。

技术说明

智慧芽智能语义检索系统,包含了三个主要的技术环节:(1)搭建面向专利领域的多语言翻译系统;(2)搭建面向专利文本的实体知识库;(3)搭建面向专利领域的语义排序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值