
NLP/文本分类
文章平均质量分 73
NLP/分类模型
u013250861
这个作者很懒,什么都没留下…
展开
-
层次多标签文本分类介绍
与多标签分类类似,给定一个文档样本可以有一个或者多个类标签与之对应,不同的是,这些标签是以层次结构存储的,层次结构中低的标签受到层级较高的标签的约束,层次结构在带来类标签之间层次关系的同时,也带来了计算复杂等更具有挑战性的特点。原创 2023-11-08 23:02:20 · 2226 阅读 · 0 评论 -
多标签文本分类介绍,以及对比训练
首先,我介绍下多元文本分类和多标签文本分类的的区别。1、Multi-Class:多分类/多元分类(二分类、三分类、多分类等)二分类:判断邮件属于哪个类别,垃圾或者非垃圾二分类:判断新闻属于哪个类别,机器写的或者人写的三分类:判断文本情感属于{正面,中立,负面}中的哪一类多分类:判断新闻属于哪个类别,如财经、体育、娱乐等2、Multi-Label:多标签分类文本可能同时涉及任何宗教,政治,金融或教育,也可能不属于任何一种。电影可以根据其摘要内容分为动作,喜剧和浪漫类型。原创 2023-10-07 23:43:01 · 1003 阅读 · 0 评论 -
Focal loss:处理样本类别不均衡的损失函数【给容易区分(置信度高)的样本添加较小的权重,给难分辨的样本添加较大的权重】【α变体(+平衡交叉熵):同时考虑正负样本数量的比例以及分类的难易程度】
focal loss详解_为了写博客,要取一个好的名字的博客-CSDN博客原创 2023-04-19 23:57:23 · 238 阅读 · 0 评论 -
多分类样本类别分布不均衡-解决方案-损失函数(二):Long-Tail Learning via Logit Adjustment
基于深度学习的多分类问题中,想要获得更优的分类效果往往需要对数据、神经网络的结构参数、损失函数以及训练参数做出调整;因此,本文针对其核心推论,首先简要阐述四个基本概念:(1)长尾分布 、(2)softmax 、(3)交叉熵 、(4)BER。对交叉熵函数的相关推理,在原有的交叉熵的基础上进行改造,使得平均分类精度更高。中,为了缓解类别不均衡造成的低样本类别分类准确率低的问题,只向损失函数中加入了标签的先验知识便获得了SOTA效果。深度学习框架进行实现,最后通过简单的Mnist手写数字分类的实验验证结果。原创 2023-04-04 18:11:49 · 216 阅读 · 0 评论 -
多类别不平衡分类-解决方案:概述【集成学习、数据重采样、深度学习(元学习)、异常检测】
类别不平衡(又称长尾问题)是指在分类问题中,类别之间的表示质量/样本数量不平等。类别不平衡在实践中广泛存在,例如金融欺诈检测、入侵检测、医疗辅助诊断等罕见模式识别任务。类的不平衡往往会导致传统机器学习算法的预测性能下降。类别不平衡学习旨在解决这一问题,即从不平衡的数据中学习一个无偏的预测模型。imbalanced-ensemble [Github][Documentation][Gallery][Paper]imbalanced-learn [Github][Documentation][Paper]smo原创 2023-04-04 17:42:22 · 890 阅读 · 0 评论 -
多分类样本类别分布不均衡-解决方案-损失函数(一):Focal Loss
当γ一定的时候,比如等于2,一样easy example(pt=0.9)的loss要比标准的交叉熵loss小100+倍,当pt=0.968时,要小1000+倍,但是对于hard example(pt < 0.5),loss最多小了4倍。因此调制系数就趋于1,也就是说相比原来的loss是没有什么大的改变的。,既然one-stage detector在训练的时候正负样本的数量差距很大,那么一种常见的做法就是给正负样本加上权重,负样本出现的频次多,那么就降低负样本的权重,正样本数量少,就相对提高正样本的权重。原创 2023-04-04 16:47:39 · 3454 阅读 · 0 评论 -
原型网络(Prototypical Networks) 完整流程讲解【附小样本电影分类代码】
1.1 本节引入在之前的的文章中,我们介绍了关于连体网络的相关概念,并且给出了使用Pytorch实现的基于连体网络的人脸识别网络的小样本的学习过程。在接下来的内容中,我们来继续介绍另外一种小样本学习的神经网络结构——原型网络。这种网络的特点是拥有能够不仅仅应用在当前数据集的泛化分类能力。原型网络的基本结构。原型网络算法描述。将原型网络应用于分类任务。1.2 原型网络引入相比于连体网络,原型网络是另外一种简单,高效的小样本的学习方式。与连体网络的学习目标类似。原创 2023-03-28 16:53:11 · 3329 阅读 · 0 评论 -
小样本学习-小样本分类:KNN+Faiss【Metric Based 方法:通过度量测试集中的样本和support集中样本的距离,借助最近邻的思想完成分类】
Model Based 方法旨在通过模型结构的设计快速在少量样本上更新参数,直接建立输入 x 和预测值 P 的映射函数;Santoro 等人 [5] 提出使用记忆增强的方法来解决 Few-shot Learning 任务。基于记忆的神经网络方法早在 2001 年被证明可以用于 meta-learning。他们通过权重更新来调节 bias,并且通过学习将表达快速缓存到记忆中来调节输出。然而,利用循环神经网络的内部记忆单元无法扩展到需要对大量新信息进行编码的新任务上。原创 2023-03-24 15:27:32 · 1151 阅读 · 0 评论 -
小样本学习(Few-shot Learning)综述
因此面向泛化性的表达是有益的。Meta Learning,又称为 learning to learn,在 meta training 阶段将数据集分解为不同的 meta task,去学习类别变化的情况下模型的泛化能力,在 meta testing 阶段,面对全新的类别,不需要变动已有的模型,就可以完成分类。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。原创 2023-03-23 17:55:41 · 1256 阅读 · 0 评论 -
机器学习中多分类问题处理成二分类问题的四种拆分策略
在机器学习中经常将多分类问题处理成二分类问题,给出三种以上的拆分策略。原创 2023-03-23 16:10:16 · 1302 阅读 · 0 评论 -
误报率、故障检测率、漏报率、虚警率、误警率等指标异同及计算公式
误报率、故障检测率、漏报率、虚警率、误警率等指标异同及计算公式_And_ZJ的博客-CSDN博客准确率、召回率、命中率、误报率、精确度_爱博客大伯的博客-CSDN博客机器学习中准确率、精确率、召回率、误报率、漏报率、F1-Score、AP&mAP、AUC、MAE、MAPE、MSE、RMSE、R-Squared等指标的定义和说明_liveshow021_jxb的博客-CSDN博客。原创 2023-03-23 15:45:44 · 3682 阅读 · 0 评论 -
多分类的样本不均衡问题
利用深度学习做多分类在工业或是在科研环境中都是常见的任务。在科研环境下,无论是NLP、CV或是TTS系列任务,数据都是丰富且干净的。而在现实的工业环境中,数据问题常常成为困扰从业者的一大难题;对交叉熵函数的相关推理,在原有的交叉熵的基础上进行改造,使得平均分类精度更高。本文将简要解读该论文的核心推论,并使用。除此之外,还存在其他的问题,本文不逐一列举。针对上述第4个问题,2020年7月google发表论文。深度学习框架进行实现,最后通过简单的Mnist手写数字分类的实验验证结果。原创 2023-03-23 14:06:32 · 171 阅读 · 0 评论 -
分类:鸢尾花的分类(四种方法)
iris数据集的中文名是安德森鸢尾花卉数据集,含有5个key,分别是DESCT,target_name(分类名称,即四个特征值的名称),target(分类,有150个数值,有(0,1,2)三种取值,分别代表三个种类),feature_names(特征名称,三个种类的名称),data(四个特征值,花萼的长、宽,花瓣的长、宽)。 iris包含150个样本,对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表。通俗地说,iris数据集是用来给花做分类的原创 2022-04-23 23:40:53 · 14449 阅读 · 0 评论 -
样本不平衡【①、利用SMOTE算法合成新的少数类样本】
参考资料:面经之不平衡样本对模型的影响以及应对措施样本不平衡问题如何解决原创 2022-03-24 14:42:54 · 1501 阅读 · 0 评论 -
NLP-文本分类-:CrossWOZ数据集【中文;意图识别;2020年】
NLP-文本分类-:CrossWOZ数据集【意图识别】原创 2022-03-03 23:15:00 · 1738 阅读 · 0 评论 -
分类模型-评估指标(2):ROC曲线、 AUC值(ROC曲线下的面积)【只能用于二分类模型的评价】【不受类别数量不平衡的影响;不受阈值取值的影响】【AUC的计算方式:统计所有正负样本对中的正序对】
等。但这些指标或多或少只能反映模型在某一方面的性能。相比而言,。ROC曲线、 AUC值:解决样本不均衡时评价指标的问题。原创 2022-03-03 23:15:00 · 6279 阅读 · 0 评论 -
人工智能-分类模型-评估指标(一):混淆矩阵【准确率=所有预测正确的样本/总的样本、精确率=将正类预测为正类/所有预测为正类、召回率=将正类预测为正类/所有真正的正类、F1-Measure】【代码】
机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的工作。一、混淆矩阵对于二分类的模型,预测结果与实际结果分别可以取0和1。我们用N和P代替0和1,T和F表示预测正确和错误。将他们两两组合,就形成了下图所示的混淆矩阵(注意:组合结果都是针对预测结果而言的)。由于1和0是数字,阅读性不好,所以我们分别用P和N表示1和0两种结果。变换之后为PP,PN,NP,NN,阅读性也很差,我并不能轻易地看出来预测的正确性与否。因此,为了能够更清楚地分辨各种预测情况原创 2022-01-07 19:45:51 · 3477 阅读 · 0 评论 -
分类问题:损失函数【二分类、多分类】
如果你正在训练一个二分类器,很有可能你正在使用的损失函数是二值交叉熵/对数(binary cross-entropy / log)。你是否想过使用此损失函数到底意味着什么?问题是,鉴于如今库和框架的易用性,很容易让人忽略所使用损失函数的真正含义。动机我一直在寻找一个可以向学生展示的以清晰简洁可视化的方式解释二值交叉熵/对数损失背后概念的博客文章。但由于我实在找不到,只好自己承担了编写的任务:-)参考资料:可视化理解Binary Cross-Entropy...原创 2022-03-03 22:45:00 · 1102 阅读 · 0 评论 -
样本类别分布不均衡【扩充数据集、对数据集进行重采样、人造数据、改变分类算法、尝试其它评价指标】
什么是样本类别分布不均衡?举例说明,在一组样本中不同类别的样本量差异非常大,比如拥有1000条数据样本的数据集中,有一类样本的分类只占有10条,此时属于严重的数据样本分布不均衡。样本类别分布不均衡导致的危害?样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性会很差。解决方法:1.通过过抽样和欠抽样解决样本不均衡(1)过抽样(over-sampling):通过增加分类中原创 2022-03-03 01:37:48 · 1033 阅读 · 0 评论 -
NLP-分类模型-短文本分类:Bert+TextCNN【意图识别】
参考资料:KBQA项目实战-第9期bert+textcnn做意图识别(上)原创 2022-02-27 23:15:00 · 3582 阅读 · 0 评论 -
NLP-分类模型:短文本分类概述【FastText、TextCNN、TextRNN、TextRCNN、DPCNN】
一、概述随着信息技术的发展,最稀缺的资源不再是信息本身,而是对信息的处理能力。且绝大多数信息表现为文本形式,如何在如此大量且复杂的文本信息中如何获取最有效的信息是信息处理的一大目标。文本分类可以帮助用户准确定位所需信息和分流信息。同时,互联网的快速发展催生了大量的书评影评、网络聊天、产品介绍等形式的短文本,其包含大量有价值的隐含信息,迫切需要自动化工具对短文本进行分类处理。 基于人工智能技术的文本分类系统依据文本的语义可实现将大量文本自动分类。多种统计理论和机器学习方法被用于文本自动分类。但其存在最原创 2022-02-27 12:14:33 · 11339 阅读 · 0 评论 -
NLP-文本分类:Bert文本分类(fine-tuning)【一分类(MSELoss)、多分类(CrossEntropyLoss)、多标签分类(BCEWithLogitsLoss)】
本文介绍如何利用BERT fine-tuning一个文本情感分类模型。二、Bert源码(BertForSequenceClassification)源码位置:\transformers\models\bert\modeling_bert.py@add_start_docstrings( """ Bert Model transformer with a sequence classification/regression head on top (a linear layer on原创 2022-02-24 22:45:00 · 1734 阅读 · 1 评论 -
分类问题的评价指标:二分类【准确率(Accuracy):用在数据均衡(每一类的样本数量相同)的数据集上】【精确率(Precision)】【召回率(Recall)】【F1】
一、混淆矩阵对于二分类的模型,预测结果与实际结果分别可以取0和1。我们用N和P代替0和1,T和F表示预测正确和错误。将他们两两组合,就形成了下图所示的混淆矩阵(注意:组合结果都是针对预测结果而言的)。由于1和0是数字,阅读性不好,所以我们分别用P和N表示1和0两种结果。变换之后为PP,PN,NP,NN,阅读性也很差,我并不能轻易地看出来预测的正确性与否。因此,为了能够更清楚地分辨各种预测情况是否正确,我们将其中一个符号修改为T和F,以便于分辨出结果。P(Positive):代表 1N(Negat原创 2022-02-22 23:15:00 · 7712 阅读 · 0 评论 -
分类问题的评价指标:多分类【Precision、 micro-P、macro-P】、【Recall、micro-R、macro-R】、【F1、 micro-F1、macro-F1】
一、混淆矩阵对于二分类的模型,预测结果与实际结果分别可以取0和1。我们用N和P代替0和1,T和F表示预测正确和错误。将他们两两组合,就形成了下图所示的混淆矩阵(注意:组合结果都是针对预测结果而言的)。由于1和0是数字,阅读性不好,所以我们分别用P和N表示1和0两种结果。变换之后为PP,PN,NP,NN,阅读性也很差,我并不能轻易地看出来预测的正确性与否。因此,为了能够更清楚地分辨各种预测情况是否正确,我们将其中一个符号修改为T和F,以便于分辨出结果。P(Positive):代表 1N(Negat原创 2022-02-20 13:04:37 · 31767 阅读 · 4 评论 -
分类问题的评价指标:多标签分类【基于标签度量(同多分类一样):准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1】【基于样本度量:Hamming Loss...】
准确率-accuracyF1值 - fscorehamming_loss -hamming_distanceAUROCAUPRC - (很多博客没有找到这个)查准率- avgPrecisionIntuitively, precision is the ability of the classifier not to label as positive a sample that原创 2022-01-28 10:31:48 · 8989 阅读 · 0 评论 -
NLP-分类模型-2014-文本分类:TextCNN【使用 “CNN”+ 预训练的 “词向量” --> 处理 “句子级别” 的文本分类】
《TextCNN 原始论文:Convolutional Neural Networks for Sentence Classification》一、概述1、TextCNN 是什么?我们之前提前CNN时,通常会认为是属于CV领域,用于计算机视觉方向的工作,但是在2014年,Yoon Kim针对CNN的输入层做了一些变形,提出了文本分类模型textCNN。与传统图像的CNN网络相比, textCNN 在网络结构上没有任何变化(甚至更加简单了), 从图一可以看出textCNN 其实只有一层卷积,一层max-原创 2021-05-05 00:24:15 · 1166 阅读 · 0 评论 -
NLP-分类模型-2015-文本分类:CharTextCNN【使用 “CNN”+ “字符向量” --> 处理文本分类】
一、最有影响力的自然语言处理论文最近有时间我会从前往后阅读nlper这个博客,发现“Most Influential NLP Papers”这篇文章比较有参考价值,不过写于06年初,稍早一些,但是真金不怕火炼,就放在这里供大家参考了! “I conducted a mini survey recently, asking people I knew what they thought were the most influential papers in NLP from the past two d原创 2021-04-20 14:12:03 · 509 阅读 · 0 评论 -
NLP-分类模型-2015-文本分类:TextRCNN【一般CNN都是“卷积层+池化层”;将CNN中的卷积层换成了BiLSTM得到“BiLSTM+池化层”;来进行文本分类】
《原始论文:Recurrent convolutional neural networks for text classification》首先先解释一下为啥叫做 RCNN:一般的 CNN 网络,都是卷积层 + 池化层。这里是将卷积层换成了双向 RNN,所以结果是,两向 RNN + 池化层。就有那么点 RCNN 的味道。论文里面一开始讲了已经有模型有各种各样的缺点,然后基于已存的各种问题,提出了这个模型。参考资料:TextRCNN 文本分类 阅读笔记...原创 2021-09-18 19:55:43 · 664 阅读 · 0 评论 -
NLP-分类模型-2016-文本分类:TextRNN【利用RNN循环神经网络解决文本分类问题】【相比较TextCNN】
TextRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛,如:垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件情感分析:2分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类。新闻主题分类:判断一段新闻属于哪个类别,如财经、体育、娱乐等。根据类别标签的数量,可以是2分类也可以是多分类。自动问答系统中的问句分类社区问答原创 2021-09-18 19:43:20 · 1563 阅读 · 0 评论 -
NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】
作为NLP工程领域常用的工具包, fasttext有两大作用:- 进行文本分类- 训练词向量fasttext工具包的优势:正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:- fasttext工具包中内含的fasttext模型具有十分简单的网络结构.- 使用fasttext模型训练词向量时使用层次softmax结构, 来提升超多类别下的模型性能.- 由于fasttext模型过于简单无法捕捉词序特征, 因此会进行n-gra原创 2021-02-28 22:18:53 · 2448 阅读 · 0 评论 -
NLP-分类模型-2016-文档分类:HAN Attention【层次Attention应用于“文档级别的长数据”(LSTM/GRU最多处理长度为300的文档);HAN可用于其他领域】
自然语言处理(NLP)-分类模型-文本分类:HAN Attention原创 2021-07-27 17:44:38 · 747 阅读 · 1 评论 -
NLP-分类模型-2018-文本分类:Uimfit【Universal Language Model Fine-tuning for Text Classification】
自然语言处理(NLP)-分类模型-文本分类:Uimfit【Universal Language Model Fine-tuning for Text Classification】2018原创 2021-08-03 22:45:59 · 210 阅读 · 0 评论 -
NLP-分类模型-2018-文本分类:TextGCN【构建了基于文本和词的异构图,使得在GCN上能够对文本进行半监督分类】
《原始论文:Graph Convolutional Networks for Text Classification》一、概述文本分类是自然语言处理中一个常见的基础问题。我们常用的文本表示方法有CNN,RNN/LSTM等等。这些模型会优先考虑文本的顺序信息和局部信息,能够很好的捕获连续词序列中的语义和语法信息,但是它忽略了全局(这个数据集/语料库)的词共现,全局词共现中携带了不连续以及长距离的语义信息。这篇文章提出了一个新颖的基于图神经网络的方法来做文本分类,使用整个数据集/语料库来构建一个大的异构图原创 2021-09-18 20:19:39 · 1838 阅读 · 0 评论 -
NLP-分类模型-2018-多标签分类:SGM(SeqGenerateModel)【将多标签分类任务视为序列生成问题】【Seq2Seq+Attention+GlobalEmbeddi】
多标签分类是自然语言处理中的一项重要但具有挑战性的任务。它比单标签分类更复杂,因为标签往往是相关的。现有方法倾向于忽略标签之间的相关性。此外,文本的不同部分可以不同地用于预测不同的标签,现有模型不考虑这些标签。在本论文,LancoPKU(北大学语言计算与机器学习小组)建议将多标签分类任务视为序列生成问题,并应用具有新颖解码器结构的序列生成模型来解决它。Seq2Seq+Attention+GlobalEmbedding+Mask一、多标签分类已有方法多标签文本分类是自然语言处理一个重要的并且有挑战性的原创 2021-07-28 20:57:56 · 1474 阅读 · 1 评论