智慧芽技术
本项目由智慧芽投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜榜单及奖项”评选。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
通过深度学习、自然语言处理以及预训练语言模型等前沿人工智能技术的运用,实现在海量全球多语言专利文本中进行自动化、智能化的数据分析与文本挖掘,进一步实现深层次语义分析,为用户提供更加精准地语义检索服务。
从不同的数据源入手,智慧芽进行了细粒度地文本实体抽取、实体关联、问题关联、领域关联、特征选择等方面的数据治理,通过领域语义图谱、文本/图片训练样本和预训练模型等,通过自研机器翻译引擎系统,智慧芽打通了不同专利文本之间的语言壁垒,使得面向全球TB级专利文本的分析、检索以及语义挖掘成为可能。
专利智能语义检索系统,主要在专利预训练语言模型的基础上,基于DSSM架构采用BERT孪生网络来获取文本的浅层语义信息,在检索层面,采用传统关键词检索以及向量检索相结合的方式,既保证了检索结果的覆盖率,也保证了检索结果的相关性。通过基于预训练语言模型的智能语义排序方法的应用,智慧芽专利智能语义检索系统取得了巨大的技术突破以及商业价值。
同时,相关技术已经获得了专利授权:CN112800779B。
技术说明
智慧芽智能语义检索系统,包含了三个主要的技术环节:(1)搭建面向专利领域的多语言翻译系统;(2)搭建面向专利文本的实体知识库;(3)搭建面向专利领域的语义排序