43、客户心理态度的推理与模拟之ToM引擎评估与元推理介绍

客户心理态度的推理与模拟之ToM引擎评估与元推理介绍

1. ToM引擎性能评估参数

ToM引擎作为一个实用的常识推理系统,其性能可以通过以下几个参数来评估:
- 正确性 :将ToM引擎构建的场景与人类专家构建的场景进行比较。通过收集来自不同领域的多智能体交互(专注于心理态度)场景集的表示,来评估像ToM引擎这样的推理系统对真实心理世界的适用性。
- 可能行为的覆盖范围 :从各个领域收集数据集,验证ToM引擎的推理能否将数据集中某个场景中提到的初始心理状态与该场景的最终心理状态联系起来。这种联系通过行为知识库实现,对覆盖范围的评估实际上是估计编码的行为集在结果心理状态方面对现实世界场景总体的覆盖程度。
- 场景复杂性 :通过改变单个场景中各种智能体行为的组合数量,来评估ToM引擎能够处理的最高场景复杂性。当行为数量增加时,所获得场景的正确性会急剧下降,这个行为数量就是最大复杂性。也就是说,如果场景复杂性超过这个数值,在相同初始心理状态下,ToM引擎生成的场景与人类专家认为自然的场景会有显著偏差。
- 表示语言的表达能力 :在将场景表示从自然语言转换为形式语言时,会关注丢失的信息。考虑到这些丢失信息对结果心理状态造成的偏差,来估计其重要性。通常,由于明确表示为行为的心理实体的含义数量明显低于自然语言描述的人际交互场景中的相应含义数量,所以会丢失信息。虽然本文不进行表达能力的评估,但ToM引擎的词汇表包含物理动作的通用模板以及大量常用心理属性的词汇单元和同义词。

2. 评估所用的数据集

为了估

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值