tqdm包

python进度条神器之tqdm包

来自 https://blog.csdn.net/qq_27825451/article/details/95486373


在这里插入图片描述
=========20230628

  1. 模型训练
    拆分成8:1:1
    增加val data loss, 和train data loss对照
    参数:参考kr-T5/mT5在下游任务上的微调参数,实验确定合理的参数

  2. 预训练模型调研

  • 模型架构,T5, 是否还有其他模型
  • 预训练数据,是哪些数据,多大量
  • 在什么数据集上进行的评测,评测性能
  • 模型可用性,开源/huggingface

3.mT5和T5在英文上page retrieva性能差的原因,对failcase分析
test部分加入代码 qaid2top1img、
重新测试两个

4.KR base model
训练 多个不同的预训练模块、
测试 在github上放case、
Fail case 分析

5.确认内容
确认lr schedule
确认调研的数据是不是预训练数据,fine tuning数据


确认一下他们的评测性能,用的什么训练数据

Pko-t5-base

Ke-t5-base-ko

ko
Dataset size: 57.77 GiB
Corpus type: ko (Newspaper, Written, Web text, Messenger, Spoken)
Split
‘train’: total 25,545,302 examples
‘validation’: total 25,450 examples

来自 https://github.com/AIRC-KETI/ke-t5

KoELECTRA
KoELECTRA is trained with 34GB Korean text, and I’m releasing KoELECTRA-Base

KoBERT

数据集 句子 词语

韩语数据集是KorQuAD,在训练集中有60,000+样本,在开发集中有10,000+样本

来自 https://zhuanlan.zhihu.com/p/555479831

KorQuAD(Korean Question Answering Dataset)是一个用于韩语问答任务的数据集。它是基于阅读理解的任务设置,旨在帮助开发者构建和评估韩语问答系统。
以下是关于KorQuAD数据集的一些重要信息:

  1. 数据概述:KorQuAD是韩语的机器阅读理解数据集,根据Wikipedia上的韩语文章构建。数据集包含了许多问题和对应的答案,这些问题是基于文章内容提出的。每个问题都有一个文本段落作为上下文,并且与问题相关的答案从上下文中选择。
  2. 数据规模:KorQuAD v1.0数据集由외부전문가 (external experts)标注,共包含8,570个训练样本和2,092个开发集样本。KorQuAD v2.0则进一步扩充了数据集,包含了新增的42,727个训练样本和11,873个开发集样本。
  3. 数据内容:KorQuAD数据集覆盖了各种主题,包括历史、科学、文化等。它提供了丰富多样的问题类型,例如定义类问题、选择类问题和对策问题。
  4. 评估指标:KorQuAD的评估使用Exact Match (EM) 和F1-score这两个指标。Exact Match是指预测的答案与真实答案完全匹配时得到的分数,F1-score是通过计算预测答案与真实答案之间的相似度得出的分数。
    KorQuAD数据集为研究人员和开发者提供了一个丰富的韩语问答任务资源。通过使用这个数据集,可以训练和评估各种韩语问答系统,推动韩语自然语言处理领域的发展和创新。

来自 https://chat.jinshutuan.com/#/chat/1688089106486

韩国维基 5M 54M
Using with PyTorch
Huggingface transformers API가 편하신 분은 여기를 참고하세요.

子任务:naver情绪分析
KoBERT准确率 0.901
Naver Sentiment Analysis
Dataset : https://github.com/e9t/nsmc
Model Accuracy
BERT base multilingual cased 0.875
KoBERT 0.901
KoGPT2 0.899

来自 https://github.com/SKTBrain/KoBERT

Little brid

什么是Korquad 2.0?
Korquad 2.0是韩国机器阅读理解数据集,该数据集由总共100,000多对组成,其中包括Korquad 1.0中的20,000多对问题。 与Korquad 1.0不同,您需要在Wikipedia文章中找到答案,而不是1或2段。 由于文档很长,因此您需要考虑探索时间。 它还包括一个表格和列表,因此还必须通过HTML标签理解文档。 该数据集将启用各种形式和长度文档的机器读数。

. 预训练模型调研

  • 模型架构,T5, 是否还有其他模型
  • 预训练数据,是哪些数据,多大量
  • 在什么数据集上进行的评测,评测性能
  • 模型可用性,开源/huggingface

Pretrain

数据集

  1. KorQuAD (Korean Question Answering Dataset):KorQuAD是一个广泛使用的韩文问答数据集,其中包含了从韩国维基百科和新闻文章中提取的问题和答案。虽然不是专门由说明书组成的数据集,但其中的新闻文章可能包含某些领域的说明信息。
  2. KLUE (Korean Language Understanding Evaluation):KLUE是一个韩文自然语言理解数据集,包含了多个任务的训练和评估数据,如问答、文本分类等。其中的问答任务可能涉及到说明书相关的问题。

来自 https://chat.jinshutuan.com/#/chat/1688089106486

超参数

Fintune

数据集

超参数

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值