机器学习应用方向(一)~英文姓名消歧(name disambiguation)

1. 姓名歧义

姓名歧义性是指不同来源的实体对象共用同一个姓名,尤其是在整合不同的网页和数据库时,姓名歧义现象会因姓名缩写或假名等更加严重,造成数据库检索结果不准确[9]。

专利发明人姓名歧义是指当数据库查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接,使得基于专利发明人的科研技术研究结果出现偏差。

2. 重名辨识方法研究现状

(1) 基于规则的方法

基于规则的方法稳定性较差,在不同的专利发明人重名辨识环境中表现较差。

(2)基于机器学习的方法

基于机器学习的方法较好地克服了规则方法的方法,在不同的专利发明人重名辨识环境中效果良好,但该方法在大规模专利数据中计算成本高。

(3)基于语义指纹的方法

基于语义指纹的重名辨识方法通过提取文献著者的特征字段数据,将其映射为一段64位或128位的二进制数字串,用以表征每条数据记录中的独特个体,将文本相似度比较转化为语义指纹相似度比较。

(4)基于唯一标识的方法

基于唯一标识的方法没有形成统一的行业标准和执行规范,而且无法辨识已有专利的发明人。

参考文献:

于永胜, 董诚, 韩红旗等. USPTO 专利发明人重名辨识方法综述[J]. 天津科技. 2018,45(2): 22-27.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天狼啸月1990

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值