2021年02月_weixin_42001089

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创标签分布学习

目录前言传统的方法论文方法总结前言一般来说我们的标签数据都是硬标签，非0即1，如one-hot或multi-one-hot，但是一些软标签有时候更具有意义，含有的信息也越丰富，即标签分布如【0.1,0.2,0.7】而不是【0,0,1】，那么该如何学习得到这样的标签分布呢？有一篇论文对此进行了讨论和研究Label Enhancement for Label Distribution Learning这是发表在IJCAI-18的一篇，即标签增强技术，已有中文解读https

2021-02-23 11:04:29 3689

原创 LDA困惑度

用perplexity去看主题个数，代码供参考import reimport mathimport jsonimport randomimport requestsimport pandas as pdfrom gensim import corpora, modelsimport jieba.posseg as jp, jiebafrom gensim import corpora, modelsimport matplotlib.pyplot as pltfrom tqdm i

2021-02-22 15:46:17 1733 4

原创半监督之伪标签法

前言半监督学习一般有两个方法一致性正则和打伪标签法即 consistency regularization 和 pseudo-label, 其中一致性正则主要是基于数据增强的一致性正则，目前比较成熟，关于数据增强笔者也总结过一篇博客即《半监督之数据增强》: https://blog.csdn.net/weixin_42001089/article/details/113307918今天来看看打伪标签法，这个其实原理很简单，就是先用少量的有标签数据训练一个基础模型，然后用其对大量无监督数据进行预测

2021-02-22 08:54:01 6790 1

原创 NLP漏标问题

前言不管在什么任务中进行监督学习，都需要标签，但一般会存在有标签数据不足，这个问题已经很常见了，可以看看《半监督小样本数据学习》https://blog.csdn.net/weixin_42001089/article/details/113307918?spm=1001.2014.3001.5501但是今天我们来说说另一个情况，那就是漏标问题，这个问题更加严重，为什么呢？因为漏标了我们就会自动认为其是负样本，这其实是一种噪声了，而且是很严重的噪声，当然了和错标还有区别，错标是也可能会吧负样本标

2021-02-21 17:09:45 621 1

原创自适应决策边界分类

前言有的时候，我们有一个任务是m分类，但是呢并不是所有的样本一定属于这m类中的每一类，我们暂且把这部分样本称为噪声吧，所以我们的任务就是不但要对该样本进行正确分类，且当它是噪声的时候我们还要检验出来，怎么做呢，一般是有两种想法：（1）设定概率阈值，将最大分类置信度低于阈值的样本看作噪声;（2）结合m类样本几何特征通过决策边界或者分布密度将噪声分离出来。今天偶然刷到一篇论文就是基于第（2）种思路来进行的《Deep Open Intent Classification with Adaptive

2021-02-14 18:52:29 3357

原创文本半监督聚类

前言聚类很常见了，很多场景下都需要聚类，笔者当前遇到一个问题是实体消歧，实体是一个个小短句，没有标注没有任何先验知识，想到的就是通过聚类将一些相似实体聚在一起达到目的。当前聚类有两大种，比如需要提前定义簇中心个数的，以Kmeans最为大家熟知，原理简单有效。还有一种是不需要提前定义簇中心个数的，比如流式聚类。一般情况下，簇中心个数是很难知道的，所以可以选流式聚类等等，但今天要说说收录在AAAI 2021的一篇论文《Discovering New Intents with Deep Aligned C

2021-02-14 18:01:10 1325

原创无监督分类

目录前言：标签名称替换类别预测自训练总结前言：在训练模型的时候，比如分类任务等等，都需要有标签数据进行监督学习，即使是要少量的标签数据，也可采用半监督的方式来提高模型的泛化性，关于一些最新的半监督学习可以参看笔者另一篇博客：《半监督小样本数据学习》：https://blog.csdn.net/weixin_42001089/article/details/113307918但是今天要分享的这篇论文是EMNLP20论文《Text Classification Usin.

2021-02-06 22:32:07 3347 1