LLM训练数据集

dingxingdi

于 2025-04-23 18:44:00 发布

阅读量589

点赞数 17

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dingxingdi/article/details/147524671

版权

文本分类(Text Classification)
序列标注(Sequence Labeling)
语言建模(Language Modeling)
机器翻译(Machine Translation)
问答系统(Question Answering)
文本生成(Text Generation)
信息抽取(Information Extraction)
文本相似度与匹配(Text Similarity and Matching)

文本分类(Text Classification)

目标: 将文本分配到预定义的类别。
小类别:
- 情感分析(Sentiment Analysis)
  - 示例数据集：IMDB、SST-2、Yelp Reviews
- 主题分类(Topic Classification)
  - 示例数据集：20 Newsgroups、AG News
- 垃圾邮件检测(Spam Detection)
  - 示例数据集：Enron Email Dataset
- 语言识别(Language Identification)
  - 示例数据集：Tatoeba
- 语法接受性分类(Linguistic Acceptability Classification)
  - 示例数据集：CoLA

序列标注(Sequence Labeling)

目标: 为序列中的每个元素(如单词或字符)分配标签。
小类别:
- 词性标注(Part-of-Speech Tagging, POS)
  - 示例数据集：Penn Treebank、Universal Dependencies
- 命名实体识别(Named Entity Recognition, NER)
  - 示例数据集：CoNLL-2003、OntoNotes
- 分块标注(Chunking)
  - 示例数据集：CoNLL-2000
- 语义角色标注(Semantic Role Labeling, SRL)
  - 示例数据集：PropBank、FrameNet

语言建模(Language Modeling)

目标: 预测下一个单词或补全句子。
小类别:
- 自回归语言模型(Autoregressive Language Models)
  - 示例数据集：Wikipedia、BookCorpus
- 掩码语言模型(Masked Language Models)
  - 示例数据集：BERT 使用的 BooksCorpus 和 Wikipedia
- 生成式语言模型(Generative Language Models)
  - 示例数据集：Common Crawl、OpenWebText

机器翻译(Machine Translation)

目标: 将一种语言的文本翻译成另一种语言。
小类别:
- 双语平行语料库(Bilingual Parallel Corpora)
  - 示例数据集：WMT、IWSLT、OpenSubtitles
- 多语言翻译(Multilingual Translation)
  - 示例数据集：OPUS、TED Talks

问答系统(Question Answering)

目标: 根据给定的问题和上下文，生成或选择正确答案。
小类别:
- 抽取式问答(Extractive QA)
  - 示例数据集：SQuAD、TriviaQA
- 生成式问答(Generative QA)
  - 示例数据集：MS MARCO、NarrativeQA
- 开放域问答(Open-Domain QA)
  - 示例数据集：Natural Questions、HotpotQA

文本生成(Text Generation)

目标: 生成符合语法和语义规范的自然语言文本。
小类别:
- 摘要生成(Summarization)
  - 示例数据集：CNN/DailyMail、XSum
- 对话生成(Dialogue Generation)
  - 示例数据集：OpenSubtitles、Persona-Chat
- 故事生成(Story Generation)
  - 示例数据集：WritingPrompts、ROCStories

信息抽取(Information Extraction)

目标: 从非结构化文本中提取结构化信息。
小类别:
- 关系抽取(Relation Extraction)
  - 示例数据集：TACRED、SemEval
- 事件抽取(Event Extraction)
  - 示例数据集：ACE 2005、MUC
- 实体链接(Entity Linking)
  - 示例数据集：Wikification、AIDA

文本相似度与匹配(Text Similarity and Matching)

目标: 计算两个文本片段之间的语义相似度或匹配程度。
小类别:
- 语义文本相似度(Semantic Textual Similarity, STS)
  - 示例数据集：STS-B、SICK
- 复述检测(Paraphrase Detection)
  - 示例数据集：MRPC、Quora Question Pairs (QQP)
- 自然语言推理(Natural Language Inference, NLI)
  - 示例数据集：SNLI、MNLI、RTE

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。