[论文笔记] CT数据配比方法论——1、Motivation

我正在写这方面的论文,感兴趣的可以和我一起讨论!!!!!!

Motivation

1、探测原有模型的配比: 配比 与 ppl, loss, bpw, benchmark等指标 之间的关系。

2、效果稳定的配比:配比 与 模型效果 之间的规律。

Experiments

1、主语言(什么语言作为主语言,几种主语言?双主语言是否可行?)

DATA_CONFIG_PATH=/mnt/data/pretrain/code/Megatron-LM/scripts/train_scripts/data_configs/jinglei/CT_Qwen14B_22lan.txt

我在3期数据基础上调的新配比,13种语言只占0.13。由于重要语种的更改,把图中的de换成ja,占比0.046。

2、主语言占比

单主语言:主语言占比

双主语言:双主语言占比

3、阶梯配比

阶梯配比(9种语言扩到22种语言时,如果保持9种语言的配比,则会效果很差,扩充到22种语言需要用阶梯配比)

  • 第0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值