tqdm包

最新推荐文章于 2024-10-08 20:27:53 发布

落落bae

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量128

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_44224676/article/details/132226791

版权

python进度条神器之tqdm包

来自 https://blog.csdn.net/qq_27825451/article/details/95486373

在这里插入图片描述
=========20230628

模型训练
拆分成8:1:1
增加val data loss, 和train data loss对照
参数：参考kr-T5/mT5在下游任务上的微调参数，实验确定合理的参数
预训练模型调研

模型架构，T5, 是否还有其他模型
预训练数据，是哪些数据，多大量
在什么数据集上进行的评测，评测性能
模型可用性，开源/huggingface

3.mT5和T5在英文上page retrieva性能差的原因，对failcase分析
test部分加入代码 qaid2top1img、
重新测试两个

4.KR base model
训练多个不同的预训练模块、
测试在github上放case、
Fail case 分析

5.确认内容
确认lr schedule
确认调研的数据是不是预训练数据，fine tuning数据

确认一下他们的评测性能，用的什么训练数据

Pko-t5-base

Ke-t5-base-ko

ko
Dataset size: 57.77 GiB
Corpus type: ko (Newspaper, Written, Web text, Messenger, Spoken)
Split
‘train’: total 25,545,302 examples
‘validation’: total 25,450 examples

来自 https://github.com/AIRC-KETI/ke-t5

KoELECTRA
KoELECTRA is trained with 34GB Korean text, and I’m releasing KoELECTRA-Base

KoBERT

数据集句子词语

韩语数据集是KorQuAD，在训练集中有60,000+样本，在开发集中有10,000+样本

来自 https://zhuanlan.zhihu.com/p/555479831

KorQuAD（Korean Question Answering Dataset）是一个用于韩语问答任务的数据集。它是基于阅读理解的任务设置，旨在帮助开发者构建和评估韩语问答系统。
以下是关于KorQuAD数据集的一些重要信息：

数据概述：KorQuAD是韩语的机器阅读理解数据集，根据Wikipedia上的韩语文章构建。数据集包含了许多问题和对应的答案，这些问题是基于文章内容提出的。每个问题都有一个文本段落作为上下文，并且与问题相关的答案从上下文中选择。
数据规模：KorQuAD v1.0数据集由외부전문가 (external experts)标注，共包含8,570个训练样本和2,092个开发集样本。KorQuAD v2.0则进一步扩充了数据集，包含了新增的42,727个训练样本和11,873个开发集样本。
数据内容：KorQuAD数据集覆盖了各种主题，包括历史、科学、文化等。它提供了丰富多样的问题类型，例如定义类问题、选择类问题和对策问题。
评估指标：KorQuAD的评估使用Exact Match (EM) 和F1-score这两个指标。Exact Match是指预测的答案与真实答案完全匹配时得到的分数，F1-score是通过计算预测答案与真实答案之间的相似度得出的分数。
KorQuAD数据集为研究人员和开发者提供了一个丰富的韩语问答任务资源。通过使用这个数据集，可以训练和评估各种韩语问答系统，推动韩语自然语言处理领域的发展和创新。

来自 https://chat.jinshutuan.com/#/chat/1688089106486

韩国维基 5M 54M
Using with PyTorch
Huggingface transformers API가 편하신 분은 여기를 참고하세요.

子任务：naver情绪分析
KoBERT准确率 0.901
Naver Sentiment Analysis
Dataset : https://github.com/e9t/nsmc
Model Accuracy
BERT base multilingual cased 0.875
KoBERT 0.901
KoGPT2 0.899

来自 https://github.com/SKTBrain/KoBERT

Little brid

什么是Korquad 2.0？
Korquad 2.0是韩国机器阅读理解数据集，该数据集由总共100,000多对组成，其中包括Korquad 1.0中的20,000多对问题。与Korquad 1.0不同，您需要在Wikipedia文章中找到答案，而不是1或2段。由于文档很长，因此您需要考虑探索时间。它还包括一个表格和列表，因此还必须通过HTML标签理解文档。该数据集将启用各种形式和长度文档的机器读数。

. 预训练模型调研

模型架构，T5, 是否还有其他模型
预训练数据，是哪些数据，多大量
在什么数据集上进行的评测，评测性能
模型可用性，开源/huggingface

Pretrain

数据集

KorQuAD (Korean Question Answering Dataset)：KorQuAD是一个广泛使用的韩文问答数据集，其中包含了从韩国维基百科和新闻文章中提取的问题和答案。虽然不是专门由说明书组成的数据集，但其中的新闻文章可能包含某些领域的说明信息。
KLUE (Korean Language Understanding Evaluation)：KLUE是一个韩文自然语言理解数据集，包含了多个任务的训练和评估数据，如问答、文本分类等。其中的问答任务可能涉及到说明书相关的问题。

来自 https://chat.jinshutuan.com/#/chat/1688089106486

超参数

Fintune

数据集

超参数