随机替换正确句子中的汉字或词,构造错误句子
用什么替换: 混淆集 (一个字可能错成什么字,已经收集构建好)
问题: 如果不用混淆集,随机替换为某个词典中的某个汉字会怎样呢?10%随机--> 100%随机
0. 关于数据来源
1. 关于混淆集
分别使用不同的混淆集构造预训练数据,预训练,微调,测试:
(1)原有的混淆集(wiki_00_base_0.train)
(2)原有的混淆集,通过字音相似,字形相似度过滤,去除部分混淆汉字(wiki_00_base_1.train)
(3)原有的混淆集,通过字音相似,字形相似度过滤,加入部分混淆汉字(wiki_00_base_2.train)
结果如下:
无法得出结论,到底是小而准的混淆集更好,还是大而全的混淆集更好(如果直接用整个词表会如何)
2. 关于引入错误的方式