中文短文本分类
文章平均质量分 94
中文长文本分类、短句子分类,嵌入层(embeddings)和网络层(graph)构建基类,FastText,TextCNN,CharCNN,TextRNN, RCNN, DCNN, DPCNN, CRNN, Bert, HAN, Transformer, Seq2seq
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
pytorch-textclassification是一个专注于中文文本分类(多类分类、多标签分类)的轻量级自然语言处理工具包,基于pytorch和transformers,包含各种实验
pytorch-textclassificationpytorch-textclassification是一个以pytorch和transformers为基础,专注于文本分类的轻量级自然语言处理工具包。支持中文长文本、短文本的多类分类和多标签分类。目录数据使用方式paper参考数据数据来源所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系删除。baidu_event_extract_2020, 项目以 2020语言与智能技术竞赛:事件抽取任务中原创 2021-08-29 12:40:50 · 3501 阅读 · 2 评论 -
Pytorch-NLU,一个中文文本分类、序列标注(实体识别、分词、词性标注)的极简工具包,基于pytorch与tramsforers
Pytorch-NLUPytorch-NLU是一个只依赖pytorch、transformers、numpy、tensorboardX,专注于文本分类、序列标注的极简自然语言处理工具包。支持BERT、ERNIE、ROBERTA、NEZHA、ALBERT、XLNET、ELECTRA、GPT-2、TinyBERT、XLM、T5等预训练模型;支持BCE-Loss、Focal-Loss、Circle-Loss、Prior-Loss、Dice-Loss、LabelSmoothing等损失函数;具有依赖轻原创 2021-08-29 12:12:41 · 2947 阅读 · 8 评论 -
中文短文本分类实例十四-LEAM(Joint Embedding of Words and Labels for Text Classification)
一.概述LEAM(Joint Embedding of Words and Labels for Text Classification),是Guoyin Wang等提出的一种文本分类新方法,看论文标题就可以发现,该方法主要是构建 "类别标签 (label) 与词向量 (word-embedding)的联合嵌入",使用注意力机制 (Attention) 作为 laebl 与 w...原创 2020-04-02 11:55:11 · 3452 阅读 · 17 评论 -
中文短文本分类实例一-TextClassification概述综述(一般步骤流程、概论和归类、调参和tricks)
一、概述 中文短文本分类任务(text classification of short or long sentence)是自然语言处理NLP中的一个特别重要的任务,简单来看,生活中常见的新闻分类、情感分类、邮件分类、领域意图分类<接触的最多>、舆情分析、论文分类等,都离不开文本分类;往复杂里说,文本分类任务是词性标注与分词、相似度计算与排序、实体提取与关系抽取、位置...原创 2019-06-15 02:19:54 · 5850 阅读 · 2 评论 -
中文短文本分类实例十三-SWEM(Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Po)
一.概述SWEM(Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms),基于词向量带有池化的简单方法,是Dinghan Shen等2018年的paper。该方案简单有效,embedding + pooling+ mlp,堪比Fa...原创 2019-12-13 22:01:44 · 1600 阅读 · 5 评论 -
中文短文本多标签分类(multi-label-class概述、简介与汇总)
一、多标签分类概述与总论 多标签分类,是一种有别于多类分类的分类类型,举个例子: 假设有类["酸", "甜", "苦", "辣", "香"], 多类分类就是 "这个水果点酸"(label="酸"),"这个菜看起来很香"(label="香"); 多标签分类则是"辣子鸡虽然尝起来很香,就是太辣了"(label=["辣", "香"])...原创 2019-08-15 00:21:05 · 10172 阅读 · 7 评论 -
中文短文本分类实例十二-HAN(Hierarchical Attention Networks for Document Classification)
一.概述HAN(Hierarchical Attention Networks for Document Classification),层次化注意力机制等,是Zichao Yang等2016年提出的一种新型文本分类模型。它主要使用词(字)语级别,和句子级别的注意力机制Attention,构建文本特征表示,层次化文本(即字、词、句子),十分符合人类直觉,也是近年来图像、NLP等...原创 2019-07-24 00:03:46 · 3197 阅读 · 2 评论 -
中文短文本分类实例十一-CapsuleNet胶囊网络(Dynamic Routing Between Capsules)
一.概述CapsuleNet(Dynamic Routing Between Capsules),胶囊网络,是Hinton等提出的新型图像人工神经网络模型,它主要解决了图像领域中maxpooling等信息丢失(比如说相对位置信息丢失的问题等)。 在图像处理领域,conv卷积层等提取图像初级特征,pooling层(最大池化、平均池化、k-max池化等)进行特征筛...原创 2019-07-19 23:00:37 · 3364 阅读 · 2 评论 -
中文短文本分类实例十-DeepMoji(Using millions of emojio ccurrences to learn any-domain representations for...)
一.概述DeepMoji(Using millions of emojio ccurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm),是Bjarke Felbo等提出的一种联合Bi-LSTM和Attention的混合神经网络,对表情符号的情绪识别棒,当...原创 2019-06-26 22:54:27 · 1648 阅读 · 0 评论 -
中文短文本分类实例九-CRNN(A C-LSTM Neural Network for Text Classification)
一.概述CRNN(A C-LSTM Neural Network for Text Classification),是Chunting Zhou等提出的一种联合CNN和RNN的优点的混合神经网络,可称之为"卷积-递归"神经网络。 不同于RCNN先对文本句子上下文本信息、以及word-embedding本身特征的提取,CRNN中的CNN可以看成另外一种形式的句子信...原创 2019-06-24 10:22:42 · 2195 阅读 · 11 评论 -
中文短文本分类实例八-VDCNN(Very Deep Convolutional Networks for Text Classification)
一.概述VDCNN(Very Deep Convolutional Networks for Text Classification)by Alexis, 2017.1,真的是一个非常深度的卷积神经网络,论文中给出的实现有9 layer,17 layer, 29 layer 以及49 layer,真的是很非常深了。 深度CNN神经网络可以从低到高,从简单到复杂地...原创 2019-06-23 12:12:27 · 2615 阅读 · 0 评论 -
中文短文本分类实例七-DPCNN(Deep Pyramid Convolutional Neural Networksfor Text Categorization)
一.概述DPCNN(Deep Pyramid Convolutional Neural Networksfor Text Categorization),是RieJohnson等提出的一种深度卷积神经网络,可以称之为"深度金字塔卷积神经网络"。 在DPCNN的工作之前,研究者们认为,word-level词级embedding优于char-level字级(严格意...原创 2019-06-22 11:25:43 · 4685 阅读 · 0 评论 -
中文短文本分类实例六-DCNN(A Convolutional Neural Network for Modelling Sentences)
一.概述 DCNN(A Convolutional Neural Network for Modelling Sentences)by NalKalchbrenner等,又是文本分类论文的一力作。"准确表达句子的语义是语言理解的核心",通过学习机器学习和TextCNN,我们可以知道n-gram特征是NLP文本任务和句子表达的一种重要方法。TextCNN通过不同步长的卷积核(例如2...原创 2019-06-21 00:56:13 · 4569 阅读 · 2 评论 -
中文短文本分类实例五-RCNN(Recurrent Convolutional Neural Networks for TextClassification)
一.概述 RCNN不同于TextCNN和charCNN,论文Recurrent Convolutional Neural Networks for TextClassification中的RCNN是一个RCNN(rnn-cnn)结构,论文地址:Recurrent Convolutional Neural Networks for TextClassification ...原创 2019-06-15 02:22:40 · 1682 阅读 · 0 评论 -
中文短文本分类实例四-charCNN-kim(Character-Aware Neural Language Models)
一.概述 charCNN不同于TextCNN,不同语言级别(字符级char-level、词级word-level、句子级sentence-level)对应不同的策略,论文Character-Aware Neural Language Models(Yoon Kim)可以看成CRNN(cnn-lstm)结构,论文地址:Character-Aware Neural Langu...原创 2019-06-15 02:22:11 · 2002 阅读 · 3 评论 -
中文短文本分类实例四-charCNN-zhang(Character-level Convolutional Networks for Text Classification)
一.概述charCNN by XiangZhang,2015,得到了state-of-the-art 在当时。论文地址:Character-level Convolutional Networks for Text Classification该方案的突出特点在于 1. 使用char作为最基本的粒子而不是大火的word,...原创 2019-08-15 00:01:29 · 1225 阅读 · 0 评论 -
中文短文本分类实例三-TextCNN(Convolutional Neural Networks for Sentence Classification)
一.概述 TextCNN(Convolutional Neural Networks for Sentence Classification)by Yoon Kim作为CNN在NLP文本分类任务上的经典之作,诞生于深度学习和卷积神经网络成为图像任务明星的2012年之后的2014年,让人不得不感慨时势的神奇。 TextCNN提出的目的在于,希望将CNN在图像领域...原创 2019-06-16 23:41:46 · 4074 阅读 · 0 评论 -
中文短文本分类实例二-FastText(Bag of Tricks for Efficient Text Classification)
一. 简介 FastText(Bag of Tricks for Efficient Text Classification)是Facebook AI Research提出的一种神经网络结构,它是一个简单而又高效的线性分类模型,能够在很短的时间内实现海量文本分类,支持亿万数据量。 并且,facebook已经用C++优雅实现了fasttext,内置了很多tricks,...原创 2019-06-15 02:21:09 · 2084 阅读 · 6 评论 -
XLNET中文文本分类
一.Xlnet概述 Xlnet,自BERT预训练-微调模式开创以来,这个自然语言处理NLP中的又一重大进展。Xlnet融合了自回归(AR,单向语言模型)、自编码(AE,双向语言模型)等语言模型特征,采用最先进的transformer特征提取器(transformer-xl,利用分割循环机制和相对位置编码进行高并发-超长文本处理),开创性地提出了排列语言模型(Permutation...原创 2019-08-29 23:38:31 · 6199 阅读 · 11 评论