Kaggle Competition : U.S. Patent Phrase to Phrase Matching

Kaggle Competition : U.S. Patent Phrase to Phrase Matching

竞赛入口:U.S. Patent Phrase to Phrase Matching

描述:

你想从与专利发明相关的巨量文本数据集中抽取信息吗?现在就有一个机会。

美国专利和商标局提供了一个最大的科学宝库,通过其开放数据门户网站向全世界提供技术和商业信息。专利是一种知识产权授予的形式,以换取公开披露新的和有用的发明。由于专利在授予前要经过严格的审查程序,而且由于美国的创新历史跨越了两个世纪和1100万项专利,美国专利档案是数据量、质量和多样性的罕见组合。


“The USPTO serves an American innovation machine that never sleeps by granting patents, registering trademarks, and promoting intellectual property around the globe. The USPTO shares over 200 years’ worth of human ingenuity with the world, from lightbulbs to quantum computers. Combined with creativity from the data science community, USPTO datasets carry unbounded potential to empower AI and ML models that will benefit the progress of science and society at large.”

— USPTO Chief Information Officer Jamie Holcombe

“USPTO为美国的创新机器服务,它通过授予专利、注册商标和在全球推广知识产权,永不停歇。从灯泡到量子计算机,美国专利商标局与世界分享了200多年来人类的创造力。与数据科学社区的创造力相结合,USPTO的数据集具有无限的潜力,可以增强人工智能和ML模型,这将有利于科学和整个社会的进步。”

- USPTO首席信息官Jamie Holcombe


在这个比赛中,你将训练你的模型在一个新的语义相似度数据集上,通过匹配专利文件中的关键短语来提取相关信息。在专利搜索和审查过程中,确定短语之间的语义相似度对于确定一项发明是否被描述是至关重要的。例如,如果一项发明提出了“电视机”的权利要求,而先前的出版物则描述了“电视机”,那么模型将理想地识别出这些是相同的,并协助专利律师或审查员检索相关文件。这超越了意译识别;如果一项发明声称使用了一种“坚固的材料”,而另一项发明使用了“钢铁”,那也可能是匹配的。所谓的“强材料”根据不同领域而不同(可能在一个领域是钢,在另一个领域是防撕裂织物,但你不会希望你的降落伞是钢做的)。我们已经将合作专利分类作为技术领域上下文作为一个附加特性,以帮助您消除这些情况的歧义。

您能否建立一个模型来匹配短语,以提取上下文信息,从而帮助专利社区连接数百万个专利文档之间的点?

评估

提交的作品将根据预测和实际相似度得分之间的皮尔逊相关系数[Pearson correlation coefficient - Wikipedia]进行评估。

提交的文件:

对于测试集中的每个id(表示一对短语),您必须预测相似性分数。该文件应包含一个头文件,格式如下:

id,score
4112d61851461f60,0
09e418c93a776564,0.25
36baf228038e314b,1
etc.

时间

2022年3月21日——开始日期。

2022年6月13日-报名截止日期。你必须在此日期前接受比赛规则,才能参加比赛。

2022年6月13日——团队合并截止日期。这是参与者可以加入或合并团队的最后一天。

2022年6月20日——最终提交截止日期。

数据描述

在这个数据集中,你会看到一对短语(一个锚和一个目标短语),并被要求在0(一点也不相似)到1(意思相同)的范围内评价它们的相似程度。这一挑战与标准语义相似度任务的不同之处在于,相似度是在专利的上下文中打分的,特别是在它的CPC分类(版本2021.05)中,它表明了专利所涉及的主题。例如,虽然“bird”和“Cape Cod”在正常语言中语义相似度较低,但如果在“house”上下文中考虑,它们的语义相似度就更接近。

这是一个代码竞赛,在这个竞赛中,您将提交代码,这些代码将在一个不可见的测试集上运行。这个不可见的测试集包含大约12k对短语。为测试目的提供了一个小型公共测试集,但不用于评分。

关于CPC代码含义的信息可在USPTO网站上找到。CPC2021.05版可以在CPC档案网站上找到。

分数含义分数的取值范围为0 ~ 1,增量为0.25,含义如下:

1.0—非常接近。这通常是一个精确的匹配,除了可能在变化,数量(如单数和复数),以及添加或删除停顿词(如the, and, or)。

0.75—近义词,如mobile phone vs. mobile phone。这也包括缩写,例如:“TCP”→“传输控制协议”。

0.5—没有相同含义(相同的功能,相同的属性)的同义词。这包括broad-narrow(下同义字)和narrow-broad(上同义字)匹配。

0.25—有些相关,例如,这两个短语在同一个高级域中,但不是同义词。这也包括反义词。

0.0—无关。

数据文件

  • train.csv - the training set, containing phrases, contexts, and their similarity scores
  • test.csv - the test set set, identical in structure to the training set but without the score
  • sample_submission.csv - 提交的正确格式的一个例子

每列的描述

  • id - 每对phrases独一无二的标号
  • anchor - the first phrase
  • target - the second phrase
  • context - the CPC classification (version 2021.05), which indicates the subject within which the similarity is to be scored
  • score - the similarity. This is sourced from a combination of one or more manual expert ratings.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a7Ejy9wl-1649234318731)(C:\Users\Berlin_matebook\AppData\Roaming\Typora\typora-user-images\image-20220406163647667.png)]

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值