自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 利用负样例监督进行文本分类

1 前言今天分享一篇2020年ACL会议一篇paper:Text Classification with Negative Supervision,是关于文本分类的任务。其解决的是当要分类的文本高度相似的时候,分类器识别的效果就会变差。提高分类器在解决这类问题的核心是如何让文本获取更强的具备差异性的文本表征向量。尽管现在基于类似BERT预训练模型已显著提高了文本的表征能力,但作者认为这类表征还不够好。如下图,在识别文本是否在描述病人患感冒病症,在BERT模型下将第一个句子错误识别为正样本。基于此,文中作者

2021-05-18 18:48:14 820 2

原创 2020年EMNLP关于文本分类的paper汇总

在2020年EMNLP会议中约有24篇papers关于text classification,尽管在该任务上的研究已很成熟,但它仍是一个热点。其主要原因text classification是文本处理中一个最常见又基础的任务,它会因不同的应用场景产生不同的问题,进而带来持续不断的研究思路。现将2020年EMNLP会议中关于该任务的paper进行下汇总与整理:关于文本分类中解释性A Diagnostic Study of Explainability Techniques for Text Class

2021-03-08 18:10:34 1262 2

原创 一种面向社交媒体文本中命名实体识别方法

#1 前言在微博、Twitter之类的社交媒体上,用户产生的大量短文本中包含各种类型的实体,这类实体的识别难度更大,因为有些实体的书写并不符合正常的语法习惯,如被用户随心缩写,导致这类实体出现的概率很小,呈现稀疏性。针对以上问题,本文介绍一种最新的识别模型,核心思想是提出语义扩充的方式来增强命名实体的识别效果,该模型发表在2020年EMNLP会议上,题目为:《Named Entity Recognition for Social Media Texts with Semantic Augmentation

2021-02-20 18:50:44 807

原创 Focal Loss 原理及实践

#1 关于Focal LossFocal Loss 是一个在交叉熵(CE)基础上改进的损失函数,来自ICCV2017的Best student paper——Focal Loss for Dense Object Detection。论文下载链接为:https://openaccess.thecvf.com/content_ICCV_2017/papers/Lin_Focal_Loss_for_ICCV_2017_paper.pdf。Focal Loss的提出源自图像领域中目标检测任务中样本数量不平衡性的

2021-02-02 15:22:58 909

原创 基于注意力机制的循环网络进行层级性多元标签文本分类

1 前言今天分享一篇做层级性多元标签文本分类任务的paper,题目为:,论文是发表在2019年CIKM上,下载地址为:https://base.ustc.edu.cn/pdf/Wei-Huang-CIKM2019.pdf,论文也公开了源码:https://github.com/RandolphVI/Hierarchical-Multi-Label-Text-Classification。从题目也能看出,论文的核心是作者提出Attention-based Recurrent Network方法来解决多标签分

2020-11-30 17:13:23 2430 2

原创 使用Sentencepiece +CNN进行文本分类

Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在语料库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词,然后形成词库进行切分,所以它会切分的粒度会更大些。例如“机器学习领域“这个文本,按jieba会分“机器/学习/领域”,但你想要粒度更大的切分效果,如“机器学习/领域”或者不切分,这样更有利于模型捕捉更多N-gram特征。为实现这个,你可能想到把对应的大粒度词加到词表中就可以解决,但是添加这类词

2020-11-23 14:06:51 979

原创 ACL2020论文分享:基于上下文的弱监督文本分类

1 前言今天分享一篇关于文本分类的paper,论文来自2020ACL会议,其主要思想是:基于上下文的弱监督方法进行文本分类。论文标题为:Contextualized Weak Supervision for Text Classification,论文下载链接,论文也开源了代码。今天分享的这篇paper在内容上,与我之前分享的一篇2019ACL的paper——无监督文本分类(Towards Unsupervised Text Classification Leveraging Experts and Wo

2020-10-13 17:49:25 2241 5

原创 tf2+cnn+中文文本分类优化系列(2)

#1 前言接着上次的tf2+cnn+中文文本分类优化系列(1),本次进行优化:使用多个卷积核进行特征抽取。之前是使用filter_size=2进行2-gram特征的识别,本次使用filter_size=[3,4,5]三个不同的卷积核抽取三个不同的gram特征,这样就能通过卷积获取更多的词特征。其实,本次主要看cnn在做中文文本分类中single kernel与multi kernel的对比。#2 前期处理数据集仍是复旦大学开源的文本数据集,label种类为20。所用的包如下:import tenso

2020-10-12 14:19:29 406 1

原创 tf2+cnn+中文文本分类优化系列(1)

1 前言接着上篇关于英文的text-cnn,今天分享一篇基础级别的中文文本分类实践练习。数据集是复旦大学开源的文本数据集,label种类为20,该数据集有点久远,感兴趣可网上搜到。这次文本分类,主要基于字级别+cnn来实现的。相对于词级别,字级别的优势就是处理简单些,不用去考虑分词错误带来的误差;缺陷就是,字所带的语义含义没词丰富,此外同样长度限制下,词级别处理的文本长度要远远大于字级别。但操作方法的角度来看,二者本质是一致的。接下来详细介绍如何实现字级别的文本分类。2 数据处理从网上downl

2020-10-12 14:16:54 683 1

人工智能领域词库(第一版)

(1)通过统计方法,Bert深度学习识别出大规模人工智能领域语料中的关键词,本版有25万+词;(2)由于第一版模型较为简单,训练的数据集不大,导致本版包含的不少噪声词;(3)当前数据与处理流程都在迭代中,后续会更新第二版;

2021-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除