开源最强的拼写纠错大模型

项目地址:GitHub - TW-NLP/ChineseErrorCorrector: 中文拼写错误和语法错误纠正

数据集

CTC(拼写纠错数据集)

数据集名称 数据链接 数据量和类别说明 描述
CTC(拼写纠错数据集) 后面整理开源 W271K:279,816 条,Medical:39,303 条,Lemon:22,259 条,ECSpell:6,688 条,CSCD:35,001 条 用于中文拼写纠错的多类别大规模数据集

该数据集包含了来自不同领域的大量中文文本,适用于拼写错误的纠正任务,能够帮助模型学习到丰富的拼写错误类型。

评估结果

评估使用 F1 值指标进行,以下是部分模型的评估结果:

Model Name Model Link Base Model Avg SIGHAN-2015 EC-LAW EC-MED EC-ODW
twnlp/ChineseErrorCorrector-7B
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值