NLP文本分类算法集锦
文章平均质量分 90
原价199,限时99.9🔥火爆订阅中(五日后恢复原价)。本专栏整理了《NLP文本分类算法集锦》,内包含了各种常见的中英文文本分类算法,以及常见的NLP任务:情感分析、新闻分类以及谣言检测等。
海洋 之心
阿里云社区专家博主,图神经网络-大数据-推荐系统研究者,专注于计算机领域前沿技术的分享等人工智能算法研究工作
展开
-
【NLP文本分类算法集锦】零基础入门经典文本分类项目实战(附代码+数据集)
本专栏整理了《NLP文本分类算法集锦》,内包含了各种常见的中英文文本分类算法,以及常见的NLP任务:情感分析、新闻分类以及谣言检测等。原创 2022-12-27 00:00:00 · 15976 阅读 · 151 评论 -
基于PyTorch+Transformer实现谣言检测系统
本项目使用基于`PyTorch+Transformer`的谣言检测模型,将文本中的谣言事件进行连续向量化,通过一维卷积神经网络的学习训练来挖掘表示文本深层的特征,避免了特征构建的问题,并能发现那些不容易被人发现的特征,从而产生更好的效果。原创 2022-12-31 15:36:43 · 4683 阅读 · 21 评论 -
基于PyTorch+CNN实现谣言检测任务
本项目使用基于PyTorch+CNN(一维卷积)的谣言检测模型,将文本中的谣言事件进行连续向量化,通过一维卷积神经网络的学习训练来挖掘表示文本深层的特征,避免了特征构建的问题,并能发现那些不容易被人发现的特征,从而产生更好的效果。原创 2022-12-31 15:36:52 · 2672 阅读 · 1 评论 -
基于MultinomialNB多项式贝叶斯分类器实现中文文本情感分类任务
本项目是使用机器学习的经典算法MultinomialNB多项式贝叶斯模型进行文本情感分析,针对数据为购物评价信息,可以判断出语料所含情感的积极性,实现思路就是针对评价进行二分类,也就是简单的指出评价是正面的还是负面的。原创 2022-12-31 15:37:38 · 1460 阅读 · 1 评论 -
基于PyTorch+TextCNN实现英文长文本诗歌文本分类
本项目是使用由Yoon Kim提出的Convolutional Naural Networks for Sentence Classification一文中提出的TextCNN模型进行长文本诗歌分类,针对数据为英语诗歌文本,可以判断出语料的诗歌类别,实现思路就是针对诗歌数据进行多分类,也就是简单的指出诗歌是哪个类别的。原创 2022-12-31 15:38:40 · 1185 阅读 · 3 评论 -
基于PyTorch+Conv-GRNN & LSTM-GRNN实现中文情感分类任务
本项目是使用Document Modeling with Gated Recurrent Neural Network for Sentiment Classification一文中提出的Conv-GRNN & LSTM-GRNN模型进行文本情感分析,针对数据为购物评价信息,可以判断出语料所含情感的积极性,实现思路就是针对评价进行二分类,也就是简单的指出评价是正面的还是负面的。原创 2022-12-31 15:39:27 · 1194 阅读 · 0 评论 -
基于PyTorch+HAN实现中文情感分类任务
本项目是使用Hierarchical Attention Networks for Document Classification一文中提出的HAN模型进行文本情感分析,针对数据为购物评价信息,可以判断出语料所含情感的积极性,实现思路就是针对评价进行二分类,也就是简单的指出评价是正面的还是负面的。原创 2022-12-31 15:39:39 · 1499 阅读 · 10 评论 -
基于GPT2实现中文新闻文本分类任务
论文最大的模型GPT-2是一个1.5B的参数Transformer,在zero-shot设置下,在8个测试语言建模数据集中的7个上实现了最先进的结果,但仍然低于WebText。模型中的样本反映了这些改进,并包含连贯的文本段落。这些发现为构建语言处理系统提供了一条有希望的途径,该系统可以从自然发生的演示中学习执行任务。原创 2022-12-31 15:39:12 · 2617 阅读 · 1 评论 -
基于Google的预训练模型XLNet实现电商情感多分类任务
XLNet 模型是在 2019 年 10 年由 CMU 和 Google 大脑团队在 NIPS 顶会上联合发布,是 Bert 模型不到一年之后又一刷爆榜单的模型。XLNet 一共在 20 个 NLP 任务上超越了 Bert,并且其中 18 个任务在当时取得了 SOTA 的成绩。原创 2022-12-31 15:39:21 · 1133 阅读 · 7 评论 -
基于CharCNN实现中文情感分类任务
本项目是使用Character-level Convolutional Networks for Text Classification一文中提出的CharCNN模型进行文本情感分析,针对数据为购物评价信息,可以判断出语料所含情感的积极性,实现思路就是针对评价进行二分类,也就是简单的指出评价是正面的还是负面的。原创 2022-12-27 08:52:45 · 1018 阅读 · 0 评论 -
基于BiLSTM-Attention实现中文文本分类任务
这篇论文发表于ACL2016,和《Relation Classification via Convolutional Deep Neural Network》一样是关系分类领域经典的论文之一,引入了attention+BiLSTM的结构进行关系分类任务,同时不使用位置向量,而是通过Position Indicators来引入实体信息,在不使用任何Lexical-Feature的情况下,可以到达较高的分类准确率。原创 2022-12-31 15:39:31 · 2224 阅读 · 1 评论 -
基于TextRCNN实现中文短文本分类任务
在TextCNN网络中,网络结构是 卷积层+池化层 的形式,卷积层用于提取n-gram类型的特征,在RCNN中,卷积层的特征提取的功能被RNN替代,因此整体结构变为了RNN+池化层,所以叫RCNN。原创 2022-12-31 00:00:00 · 1180 阅读 · 0 评论 -
基于TextRNN实现情感短文本分类任务
文本分类任务中,CNN可以用来提取句子中类似N-Gram的关键信息,适合短句子文本。TextRNN擅长捕获更长的序列信息。具体到文本分类任务中,从某种意义上可以理解为可以捕获变长、单向的N-Gram信息(Bi-LSTM可以是双向)。原创 2022-12-30 00:00:00 · 1242 阅读 · 0 评论 -
基于飞浆ERNIE3.0百亿级大模型实现中文短文本分类任务
ERNIE 3.0 (Large-Scale Knowledge Enhanced Pre-Training for Language Understanding And Generation) 是基于知识增强的多范式统一预训练框架。在 ERNIE 3.0 中,自回归和自编码网络被创新型地融合在一起进行预训练,其中自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习。 通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务。同时,自编码网络创新性地增加了知识原创 2022-12-29 00:00:00 · 1583 阅读 · 0 评论 -
基于ERNIE2.0文心大模型实现中文短文本分类任务
文心·NLP大模型,面向语言理解、语言生成等NLP场景,具备超强语言理解能力以及对话生成、文学创作等能力。创新性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化。原创 2022-12-28 00:00:00 · 1702 阅读 · 0 评论 -
基于Pytorch+Bert实现电商情感多分类任务
BERT是2018年10月由Google AI研究院提出的一种预训练模型。BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4% (绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。原创 2022-12-26 14:58:54 · 2205 阅读 · 3 评论 -
基于DPCNN实现电商情感分析任务
下载链接项目中使用的模型是DPCNN,在模型中我们定义了三个组件,分别是embedding层,卷积层和全连接层。Embedding层:将每个词生成对应的嵌入向量,就是利用一个连续型向量来表示每个词卷积层:提取语句中的语义信息Linear层:将结果映射成2大小用于二分类,即正反面的概率。原创 2022-12-26 05:00:00 · 1086 阅读 · 5 评论 -
基于FastText实现情感二分类任务
下载链接项目中使用的模型是FastText,在模型中我们定义了两个组件,分别是embedding层和全连接层。Embedding层:将每个词生成对应的嵌入向量,就是利用一个连续型向量来表示每个词Linear层:将结果映射成2大小用于二分类,即正反面的概率。原创 2022-12-25 05:00:00 · 1411 阅读 · 5 评论 -
基于TextCNN实现情感分析任务
下载链接项目中使用的模型是TextCNN,在模型中我们定义了三个组件,分别是embedding层,卷积层和全连接层。Embedding层:将每个词生成对应的嵌入向量,就是利用一个连续型向量来表示每个词卷积层:提取语句中的语义信息Linear层:将结果映射成2大小用于二分类,即正反面的概率。原创 2022-12-23 20:04:25 · 2063 阅读 · 1 评论 -
基于RNN+CNN实现NLP判别新闻真伪
关于数据集在预处理、特征提取和模型分类方面,Getting Real about Fake News似乎最有希望。原因是所有其他的数据集都缺乏文章/声明文本产生和发布的来源。引述文章文本的来源对于检查新闻的可信度至关重要,并进一步帮助将数据标记为假的或不可信的。titletextsubjectdateclass嵌入层:负责将我们的词形成连续型嵌入向量,用一个连续型向量来表示一个词lstm:用于提取长距离语义信息卷积层:利用卷积提取语义信息池化层:将数据进行池化,降低模型复杂度。原创 2022-10-30 06:00:00 · 2146 阅读 · 2 评论 -
基于CNN实现冠状病毒推文NLP文本分类
关于数据集对数据进行文本分类。这些推文是从Twitter中提取的,然后进行了人工标记。名字和用户名已经被赋予了代码,以避免任何隐私问题。LocationTweet AtLabel嵌入层:负责将我们的词形成连续型嵌入向量,用一个连续型向量来表示一个词卷积层:利用卷积提取语义信息池化层:将数据进行池化,降低模型复杂度输出层:将卷积输出的数据进行拼接,然后送入到输出层进行分类。原创 2022-10-16 15:34:35 · 1670 阅读 · 0 评论 -
基于Transformer实现Twitter文本隐喻二分类
该数据集由公司数字八创建,最初在其“人人享有数据”网站上共享。推特来源:https://twitter.com/AnyOtherAnnaK/status/6291959555067084802017 年,Google 提出了 Transformer 模型,用 Self Attention 的结构,取代了以往 NLP 任务中的 RNN 网络结构,在 WMT 2014 Englishto-German 和 WMT 2014 English-to-French两个机器翻译任务上都取得了当时 SOTA 的效果。原创 2022-10-15 17:29:01 · 2043 阅读 · 7 评论 -
基于Transformer实现电影评论星级分类任务
电影将所有电影分为22种不同的类型,对于每种类型,都会抓取2000条电影评论,评论按照评论者进行评论时的评分等级分为三类。整个数据集的大小为2.3GB,为了简单测试demo,所以从所有数据中随机抽取了1000条。Comment:电影评论Star:分类标签,代表不同评论对应的评分等级。原创 2022-10-15 16:08:05 · 4097 阅读 · 2 评论 -
基于一维卷积Conv1D对电商评论数据文本情感分类
背景描述电商评论情感二分类数据集,有用的就两列label: 1代表积极, 0 代表消极。text:评论的内容共10000条中文评论训练集,val, test集 按照8:1:1划分。可以参考示例项目,已经划分为numpy数组。数据集下载地址序列顺序的特征提取,对于一维卷积来说,是通过长的卷积核和池化层对序列的缩放实现的。原创 2022-10-28 05:00:00 · 1609 阅读 · 0 评论 -
基于自注意力机制(Self-Attention)对twitter数据进行情感分析
密歇根大学情感分析比赛KaggleNiek Sanders的推特情绪语料库推特情绪分析数据集包含1,578,627条分类推文,每一行标记为1表示积极情绪,0表示消极情绪。我建议使用1/10的语料库来测试你的算法,而剩下的可以用来训练你用来分类情绪的算法。原创 2022-10-24 06:00:00 · 2686 阅读 · 0 评论 -
基于RNN实现微博热点新闻分类
数据集为脱敏后的微博热点新闻评论数据集,整个数据集中共60000条数据,有两列特征text:微博热点新闻评论label:分类标签,0和1RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。首先我们要明确什么是序列数据,摘取百度百科词条:时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义,当然这里也可以不是时间,比如文字序列,但总归序列数据有一个特点——后面的数据跟前面的数据有关系。原创 2022-10-15 06:00:00 · 3925 阅读 · 20 评论 -
基于词级ngram的词袋模型对twitter数据进行情感分析
密歇根大学情感分析比赛KaggleNiek Sanders的推特情绪语料库推特情绪分析数据集包含1,578,627条分类推文,每一行标记为1表示积极情绪,0表示消极情绪。我建议使用1/10的语料库来测试你的算法,而剩下的可以用来训练你用来分类情绪的算法。原创 2022-10-10 06:00:00 · 1503 阅读 · 0 评论 -
基于pytorch使用LSTM实现新闻本文分类任务
整个数据集整合划分出15个候选分类类别:法治、国际、国内、健康、教育、经济、军事、科技、农经、三农、人物、社会、生活、书画、文娱的文本数据。数据总共有4482条新闻纪录,字段分别为:标题、标题链接、新闻内容、关键词、发布时间、标签、新闻采集时间。原创 2022-10-05 06:00:00 · 6782 阅读 · 15 评论 -
基于pytorch使用LSTM进行谣言检测
下载链接项目中使用的模型是LSTM,在模型中我们定义了三个组件,分别是embedding层,lstm层和全连接层。Embedding层:将每个词生成对应的嵌入向量,就是利用一个连续型向量来表示每个词Lstm层:提取语句中的语义信息Linear层:将结果映射成2大小用于二分类,即谣言和非谣言的概率注意:在LSTM网络中返回的值为最后一个时间片的输出,而不是将整个output全部输出,因为我们是需要捕捉整个语句的语义信息,并不是获得特定时间片的数据。原创 2022-10-03 20:41:15 · 5288 阅读 · 31 评论 -
基于pytorch使用LSTM进行文本情感分析
下载链接项目中使用的模型是LSTM,在模型中我们定义了三个组件,分别是embedding层,lstm层和全连接层。Embedding层:将每个词生成对应的嵌入向量,就是利用一个连续型向量来表示每个词Lstm层:提取语句中的语义信息Linear层:将结果映射成2大小用于二分类,即正反面的概率注意:在LSTM网络中返回的值为最后一个时间片的输出,而不是将整个output全部输出,因为我们是需要捕捉整个语句的语义信息,并不是获得特定时间片的数据。原创 2022-10-04 08:00:00 · 8307 阅读 · 24 评论