论文笔记——chatgpt评估+

1. chatgpt 效果评估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

文章简介

论文是从开放域和限定域两个角度对chatGPT的**performance、可解释性、校准性(calibration)和可信性(faithfulness)**进行了评估(assessment)。(performance、explainability、calibration、faithfulness四个维度进行测评的)
以上评估是杂7个细粒度知识抽取任务中进行的。

四个维度:

  1. performance(表现):chatgpt在不同任务下的性能表现。
  2. explainability(可解释性):chatgpt在self-check和human-check下的可解释性。

ChatGPT和领域专家高度认可ChatGPT给出的理由,大多数数据集在Standard-IE和OpenIE设置中获得了超过90%的合理分数
与人的评价相比,ChatGPT在为其预测提供的理由方面显示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
当ChatGPT为一个预测提供了合理的解释时,ChatGPT和人类的评价之间有很高的一致性。

  1. calibration(校准性):校准性是用来判断chatgpt性能的不确定性的评价手段。一个好的calibratedclassifier是应该能够预测模型给出的判断的准确性(A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness)

虽然ChatGPT在标准-IE设置中的表现比基于BERT的同类产品差,但它在正确和错误的预测中都表现出过度自信。
ChatGPT倾向于产生不容易代表真实概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.

  1. faithfulness(可信性):ChatGPT的解释的忠实性对于确保其可信度非常重要 (The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine)。

ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的决策过程主要依赖于原文的输入.

7个知识抽取任务

实体类型判断 命名实体识别 关系分类 关系抽取 事件检测 事件论元抽取 事件抽取

文章结论

  1. 在standard IE情况下,ChatGPT的性能在大多数情况下无法与基线模型和SOTA方法相比。
  2. ChatGPT在相对简单的IE任务中(实体类型判断)表现良好,但在更复杂和具有挑战性的任务中(关系抽取、事件抽取)却很吃力。
  3. chatgpt在standard IE知识抽取任务中,表现略差于在openIE任务中的表现。
  4. chatgpt可以用来辅助标注工作。(我们的研究结果表明,ChatGPT是一个合格的答案候选生成器,适用于标准-IE设置下的特定任务。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.)

2. 事件抽取: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

论文核心

论文将event extraction转化为了word-word relation recognition任务。(参考了relation extraction任务的方法)

论文面向任务是EE: EE任务的核心是需要抽取出trigger和event的arguments。
在解决EE任务时,将可能的关系定义为了以下几类:
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之间的关系。(S表示subject、O表示object、T表示target、P表示proportion)——也就是事件论元和事件trigger之间的关系。

论文方法

方法上还是以tagging scheme 为主,是以table filling方式实现的event extraction。
在这里插入图片描述
注意公式中的字的写法

第一步是使用bert 得到sentence 的embedding

在这里插入图片描述

第二步使用attention module和 gate module 得到每种event type的contextual representation. (一个由注意模块和两个门融合模块组成的自适应事件融合层被用来为每个事件类型获得偶发的环境表征。)

  1. 先使用attention mechanism 得到了每个Word的 event type下的embedding。E表示event type的embedding。在这里插入图片描述
  2. 融合target event type的embedding和last gate module的output。
    在这里插入图片描述
    在这里插入图片描述

第三步,使用table filling实现relation的classification。是将argument和trigger作为的span,然后做了一次span 分类。然后,对argument做了span的分类,判断argument的role。 在计算Word-Word pair之间的关系得分时,使用的是** dot product**.
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值