项目地址:GitHub - TW-NLP/ChineseErrorCorrector: 中文拼写错误和语法错误纠正
数据集
CTC(拼写纠错数据集)
数据集名称 | 数据链接 | 数据量和类别说明 | 描述 |
---|---|---|---|
CTC(拼写纠错数据集) | 后面整理开源 | W271K:279,816 条,Medical:39,303 条,Lemon:22,259 条,ECSpell:6,688 条,CSCD:35,001 条 | 用于中文拼写纠错的多类别大规模数据集 |
该数据集包含了来自不同领域的大量中文文本,适用于拼写错误的纠正任务,能够帮助模型学习到丰富的拼写错误类型。
评估结果
评估使用 F1 值指标进行,以下是部分模型的评估结果:
Model Name | Model Link | Base Model | Avg | SIGHAN-2015 | EC-LAW | EC-MED | EC-ODW |
---|---|---|---|---|---|---|---|
twnlp/ChineseErrorCorrector-7B |