目录
文本分类(Text Classification)
- 目标: 将文本分配到预定义的类别。
- 小类别:
- 情感分析(Sentiment Analysis)
- 示例数据集:IMDB、SST-2、Yelp Reviews
- 主题分类(Topic Classification)
- 示例数据集:20 Newsgroups、AG News
- 垃圾邮件检测(Spam Detection)
- 示例数据集:Enron Email Dataset
- 语言识别(Language Identification)
- 示例数据集:Tatoeba
- 语法接受性分类(Linguistic Acceptability Classification)
- 示例数据集:CoLA
- 情感分析(Sentiment Analysis)
序列标注(Sequence Labeling)
- 目标: 为序列中的每个元素(如单词或字符)分配标签。
- 小类别:
- 词性标注(Part-of-Speech Tagging, POS)
- 示例数据集:Penn Treebank、Universal Dependencies
- 命名实体识别(Named Entity Recognition, NER)
- 示例数据集:CoNLL-2003、OntoNotes
- 分块标注(Chunking)
- 示例数据集:CoNLL-2000
- 语义角色标注(Semantic Role Labeling, SRL)
- 示例数据集:PropBank、FrameNet
- 词性标注(Part-of-Speech Tagging, POS)
语言建模(Language Modeling)
- 目标: 预测下一个单词或补全句子。
- 小类别:
- 自回归语言模型(Autoregressive Language Models)
- 示例数据集:Wikipedia、BookCorpus
- 掩码语言模型(Masked Language Models)
- 示例数据集:BERT 使用的 BooksCorpus 和 Wikipedia
- 生成式语言模型(Generative Language Models)
- 示例数据集:Common Crawl、OpenWebText
- 自回归语言模型(Autoregressive Language Models)
机器翻译(Machine Translation)
- 目标: 将一种语言的文本翻译成另一种语言。
- 小类别:
- 双语平行语料库(Bilingual Parallel Corpora)
- 示例数据集:WMT、IWSLT、OpenSubtitles
- 多语言翻译(Multilingual Translation)
- 示例数据集:OPUS、TED Talks
- 双语平行语料库(Bilingual Parallel Corpora)
问答系统(Question Answering)
- 目标: 根据给定的问题和上下文,生成或选择正确答案。
- 小类别:
- 抽取式问答(Extractive QA)
- 示例数据集:SQuAD、TriviaQA
- 生成式问答(Generative QA)
- 示例数据集:MS MARCO、NarrativeQA
- 开放域问答(Open-Domain QA)
- 示例数据集:Natural Questions、HotpotQA
- 抽取式问答(Extractive QA)
文本生成(Text Generation)
- 目标: 生成符合语法和语义规范的自然语言文本。
- 小类别:
- 摘要生成(Summarization)
- 示例数据集:CNN/DailyMail、XSum
- 对话生成(Dialogue Generation)
- 示例数据集:OpenSubtitles、Persona-Chat
- 故事生成(Story Generation)
- 示例数据集:WritingPrompts、ROCStories
- 摘要生成(Summarization)
信息抽取(Information Extraction)
- 目标: 从非结构化文本中提取结构化信息。
- 小类别:
- 关系抽取(Relation Extraction)
- 示例数据集:TACRED、SemEval
- 事件抽取(Event Extraction)
- 示例数据集:ACE 2005、MUC
- 实体链接(Entity Linking)
- 示例数据集:Wikification、AIDA
- 关系抽取(Relation Extraction)
文本相似度与匹配(Text Similarity and Matching)
- 目标: 计算两个文本片段之间的语义相似度或匹配程度。
- 小类别:
- 语义文本相似度(Semantic Textual Similarity, STS)
- 示例数据集:STS-B、SICK
- 复述检测(Paraphrase Detection)
- 示例数据集:MRPC、Quora Question Pairs (QQP)
- 自然语言推理(Natural Language Inference, NLI)
- 示例数据集:SNLI、MNLI、RTE
- 语义文本相似度(Semantic Textual Similarity, STS)