Outlier Detection for Improved Data Quality and Diversity in Dialog Systems
- 论文按如下方式检测数据集中的异常值:
1.生成每个实例的矢量表示。
2.平均向量以获得均值表示。
3.计算每个实例与平均值的距离。
4.按距离升序排列。
5.(删除列表,仅将前k%作为离群值。)
最后一步用括号括起来,因为在实践中使用动态阈值方法,允许用户根据喜好浏览或多或少的列表。
- 论文提出了一种使用句子的连续表示的新的异常值检测方法。可结合神经距离嵌入和基于距离的离群值检测来检测短文本语料库中的错误样本和唯一样本。
- 与集合中其他示例相距甚远的示例可能是一个异常值,原因有两个:(1)它不是这个类的有效实例(即一个错误),或者(2)它是这个类的一个不寻常的示例(即唯一的)。
- 离群值检测不仅可以用于发现错误,还可以用于其他方面。没有错误的异常值可能是数据集中最有趣,信息量最大的示例。使用这些示例在迭代过程中指导数据收集,可以产生更多不同的数据。
- Universal Sentence Encoder(USE; Cer et al.,2018)一种深度平均网络方法,该方法对单词嵌入进行平均并通过前馈网络传递结果。平滑逆频率(SIF; Arora et al., 2017)词嵌入的加权平均值,权重由语料库中的词频确定。
- Borda计数将同一项目集的多个排名列表汇总到一个排名列表中。首先,将点分配给每个列表中的每个项目,一个项目在长度为N的排名列表中的位置i上获得N–i个点。接下来,在所有列表中汇总项目得分。最后,按总点数对项目进行排名,从而产生最终排名。
- 人工数据集通过混合来自不同意图的数据来注入噪声。 这提供了一种控制异常数据的数量和类型的简便方法。
PPT
提高对话系统数据质量和多样性的离群点检测
Outlier Detection
论文提出了一种使用句子的连续表示的新的异常值检测方法。可结合神经距离嵌入和基于距离的离群值检测来检测短文本语料库中的错误样本和唯一样本。
最后一步用括号括起来,因为在实践中使用动态阈值方法,允许用户根据喜好浏览或多或少的列表。能够捕获每个类空间的语义结构。与集合中其他示例相距甚远的示例可能是一个异常值,原因有两个:(1)它不是这个类的有效实例(即一个错误),或者(2)它是这个类的一个不寻常的示例(即唯一的)。这种方法独立地应用于每一类数据。