Categorizing Comparative Sentences

这个论文解决了自动区分比较句子的任务,并对预期偏好进行分类。论文注释了来自不同领域的7199个句子有217个目标对,实验结果表明,基于预训练的句子嵌入梯度推进模型的F1值为85%。

这个模型可以用来该模型可用于比较/论证搜索引擎或辩论技术中正反论证的比较句提取

1.介绍

每一个人每天都会面临选择问题:从产品之间的选择(例如,买哪个相机),到对所有东西的更一般的偏好:去城市旅游,去学校学习,甚至用哪一门编程语言。明智的选择需要根据比较以及客观的论证选择更喜欢哪一个候选。人们经常会寻求其他人的帮助,比如,会在问答平台上问一堆像”X和Y如何比较“的问题

 网页通常包含关于不同物体比较的页面。专门的网络资源把人类专家的结果系统化作为特定领域的比较(比如,相机,餐厅,旅馆等)而像WolframAlpha这样的系统旨在提供跨域的比较功能。尽管如此,这类页面和系统通常会因为依赖结构化数据库作为唯一的信息来源而忽略了web上可用的丰富文本内容而受到覆盖问题的困扰。

目前还没有一个系统能够满足开放域比较信息的需求,对比较项目的相对质量有足够的覆盖和解释。事实上,信息检索系统和网络搜索引擎能够直接回答许多事实性的问题(一个框,直接回答,等等)但是不能区别对待比较信息和其他标准信息。对于许多比较信息的需求,搜索引擎显示默认的10个蓝色链接,尽管对于不同选项,包含正反两方面的直接回答可能会更有帮助。

一个原因可能是,尽管在网上有大量的比较和有争议的解释,但仍然没有广泛的提取技术。在这项工作中,我们提出了第一步,以弥补这一差距,提出了分类器来识别和分类比较句。

对比较句进行识别和分类的任务是决定一个给定的句子是否至少比较了两个项目,如果是,那么哪个项目在比较中“胜出”。比如给出这样一个句子:Python is better suited for data analysis than MATLAB due to the many available deep learning libraries,这个系统能够把这句话分为比较的(句子)而且支持Python(Python胜过MATLAB)比较句的识别和分类可以看作是论证挖掘的一个子任务,比较句的识别和分类可以被视为论证挖掘的一个子任务(里皮和Torroni, 2016),因为检测比较句(可能也包括它们的上下文句)可以支持对两个或多个项目的正反分析。这种相对的赞成/反对可能会在辩论中引发反应(某些项目的优势可能会被其他项目的优势所抵消,等等)。或者,它们可以作为回答提交给论证搜索引擎的比较信息需求的基础。

论文的贡献主要有2个方面:

       1.构建了一个包括7199个句子以及物体对的新的语料库,(27%的句子被标记为比较性,并注释了偏好物体)

2.根据以前的工作,提出了一个监督分类的研究,以及基于规则的基线

2 Related Work

一些在线比较门户网站如Go-Compare或Compare.com提供对结构化数据库的访问,在结构化数据库中,可以根据产品的方面对同类产品进行排序。其他系统如Diffen.com和Versus.com尝试比较任意属性上的任意一对条目。它们通过整合大量结构化资源(如数据库)和半结构化资源(如维基百科)达到了很高的覆盖率,但仍然并排列出各个方面,而没有提供进一步的口头解释——没有一个门户旨在从文本中提取比较。有希望的文本比较数据源是问答门户网站,如Quora或Yahoo!答案中包含了很多"怎么做X和Y比较?,但网络本身是一个更大的文本比较的来源。

从网络中挖掘和分类比较句可以支持搜索引擎回答比较问题从网络中挖掘和分类比较句可以支持搜索引擎回答比较查询(在挖掘的句子本身或其上下文中,有潜在的论证来证明这种偏好),但也有意见挖掘(Ganapathibhotla和Liu, 2008)作为另一个重要的应用。尽管如此,以前关于识别比较句的工作大多是在生物医学领域进行的。例如,Fiszman等人(2007)通过大量的领域知识形成的人工开发的比较和方向模式,明确地比较药物治疗的元素,确定句子。后来,Park和Blake(2012)为毒理学出版物训练了一个高精度贝叶斯网络分类器,该分类器使用词汇线索(比较词汇和特定领域词汇),但也使用依赖解析中比较目标之间的路径。最近,Gupta等人(2017)描述了一个生物医学领域的系统,该系统还结合了词汇匹配和依赖解析的手工收集模式,以便使用Jindal和Liu(2006)的可分级、不可分级的最高分类方法来识别比较目标和比较类型。

开发一个从网络中挖掘比较句的系统(具有潜在的对偏好的论证支持)可能会使用专门的术语,比如用于论证性推文的hashtag (Dusmanu等人,2017),但同时也面临着一般网络论证挖掘所面临的挑战:网络文本通常没有很好的表述,缺少论证结构,并且包含表述不佳的主张。和医药领域利用依赖解析挖掘比较句子不同的是,这样的语法特征通常不能从嘈杂的文本信息中提取出来,甚至对识别结构很好定义的文本(如说服性文章或维基百科文章)的论证结构没有真正的帮助。

话语标记语在主张和前提认定中的作用被Eckle-Kohler等人(2015)发现,这些标记对识别论证句有一定的帮助。另外Daxenberger et al.(2017)注意到声明在不同的数据集中分享词汇线索。他们还从他们的实验中得出结论,典型的论证挖掘数据集太小,无法释放最近基于dnn的分类器的力量;基于特征工程的方法仍然是最好的。

Dataset

由于没有对比较参数挖掘的大型公开的跨域数据集,论文创建了由标记better以及worse和None(这个句子不包含目标项目的比较)注释的句子组成的数据集,标记better的数据集表示第一个项目好,而worse则相反

在我们的数据集中,我们的目标是将特定领域的偏差最小化,以捕获比较的本质,而不是特定领域的本质。因此,我们决定通过比较目标的选择来控制域的特异性。在初步实验中,我们假设并证实了比较对象通常有一个共同的上名(即,它们是同一类的实例),我们利用这一点来选择比较项目对。

我们选择的最具体的领域是计算机科学,比较目标是编程语言、数据库产品和技术标准,如蓝牙或以太网。许多计算机科学概念可以客观地进行比较(例如,通过传输速度或对某些应用的适用性)。比较目标是从维基百科中人工提取的涵盖计算机科学的文章列表。在标注过程中,标注者被要求仅在他们具备一些计算机科学基础知识的情况下,对该领域的句子进行标注。

第二个更广泛的领域是品牌。它包含各种类型的物品(例如,汽车,电子产品或食品)。由于品牌存在于日常生活中,我们认为基本上每个人都能在句子中标明知名品牌,如可口可乐或梅赛德斯。同样,此域的目标项是手动从Wikipedia -articles列表中提取的。

第三个随机域不局限于任何主题。对于随机选择的24个种子词,每个种子词根据分布相似性JoBimText API (Biemann and Riedl, 2013)收集3个10个相似词。

3Created using randomlists.com: book, car, carpenter,
cellphone, Christmas, coffee, cork, Florida, hamster, hiking,
Hoover, Metallica, NBC, Netflix, ninja, pencil, salad, soccer,
Starbucks, sword, Tolkien, wine, wood, XBox, Yale.

特别是对于品牌和计算机科学,结果项目列表很大(品牌4,493项,计算机科学1,339项)。在人工检查中,低频和模糊的项目被删除(例如,计算机科学的概念“RAID”(一个硬件概念)和“Unity”(游戏引擎)也是经常使用的名词)。其余的项目被组合成成对。对于每个项目类型(种子Wikipedia列表或种子单词),将创建所有可能的项目组合。然后,这些对被用来从网络规模的语料库中挖掘包含这两个项目的句子。

我们的句子来源是DepCC (Panchenko等人,2018年)的公开索引,这是一个超过140亿句依赖解析的英语句子的索引,这些句子来自Common Crawl,经过重复过滤。对于每个目标对中包含两个项目的句子,该索引被查询。对于90%的句子,我们还在查询中添加了频繁的比较线索词(Better, easier, faster, nicer, wiser, cooler, decent, safer,superior, solid, terrific, worse, harder, slower, poorly, uglier,poorer, lousy, nastier, inferior, mediocre.),以使结果偏向于实际的比较句子,但同时也允许不包含任何预期线索的比较。这种有重点的查询是必要的,因为随机抽样只会产生非常小的一部分比较句子。请注意,即使是包含提示词的句子也不一定表达出想要表达的对象之间的比较(例如,狗和猫:他是你能得到的最好的宠物,比狗或猫好)。因此,让分类器学会不只依赖提示词的存在是非常重要的(这很可能发生在很少进行比较的随机句子样本中)。对于我们的数据集,我们保持包含至少100个检索到的句子的目标对。

4 Supervised Categorization of Comparative Sentences

 一共7199个句子,80%(5799:4194none,1091better,474worse)用于训练,20%保留。在开发过程中,使用分层5倍交叉验证对训练集的实验进行评估;保留集仅用于最终评估。如果没有另外说明,scikit-learn (Pedregosa et al., 2011)被用来进行特征处理、分类和评估。

4.1 Preprocessing

第一个预处理步骤决定是使用整个句子还是只使用其中的一部分来进行特征计算。每句话都被认为由三部分组成:开头部分都是第一个比较目标之前的单词,结尾部分都是第二次比较目标之后的单词,中间部分都是目标之间的单词。在我们的分类实验中使用了不同的部分句子表征组合。

第二个预处理步骤是用来检查词汇化的比较目标对分类的重要性。目标要么保持原状,要么被移除,要么用两种不同的替代策略替换。在第一种变体中,两个目标都被ITEM取代。第二个变种中,第一个目标用ITEM_A,第二个目标用ITEM_B代替

4.2 Supervised Classification Models

论文中比较了13种模型,lowercapacity linear models:Na¨ıve Bayes, and SVMs with various kernels;high-capacity:Random Forest, Extra,Trees, and Gradient Boosting relying on decision trees......

4.3 Sentence Representations

我们研究了不同特征类型对分类性能的影响。

Bag ofWords and Bag of Ngrams

Part-of-speech (POS) n-grams

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初,梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值