BERTSCORE: EVALUATING TEXT GENERATION WITH BERT
开头
我觉得这个方法也没有考虑到语序这个因素。在计算时,拆分的会不会有点太散了。token-to-token的相似度加权得到最终相似度。整个chunk的相似度似乎并没有得到很好的利用。word的本身语义信息在利用时,会不会在变换为token后改变了?
本文核心:计算reference和candidate中每个token之间的语义相似度(cosine similarity),选择对应的最大的相似度分值,加权得到最终的相似度值。
related works
看前人做的一些改建。
比如:n_gram_words更改为n_gram_characters
比如:n_gram_words更改为weightd n_gram-words
- n-grams方法
- 编辑距离的方法
- 基于嵌入的方法
- learned metrics (直接以人类的judgements作为评估矩阵,训练模型,使得评测矩阵接近于人类评测水平)
method
- Use different model to tokenizer the sentences
- cosine similarity to compute the reference token and the candidate token.
- compute the sum of the token similarity scores
- use idf as the weight to compute the final score.
- rescall the score (b is the lower bound—— compute b by averaging BERTSCORE
computed on these sentence pairs.)
根据WMT18的标准做法,使用绝对皮尔逊相关度|ρ|和肯德尔等级相关度τ来评估指标质量