![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 78
weixin_42001089
算法让生活更美好
展开
-
一览大模型长文本能力
大模型长文本能力都涉及到哪些技术点?原创 2024-02-16 20:02:51 · 1112 阅读 · 0 评论 -
多视角多行为推荐对比学习
多视角多行为推荐对比学习原创 2022-08-21 17:23:22 · 1220 阅读 · 0 评论 -
第一个大规模中文视频多模态相似度数据集
中文视频多模态数据集来啦~原创 2022-07-10 16:11:31 · 1479 阅读 · 1 评论 -
最新大一统信息抽取SOTA模型
前言大一统模型目前越来越火,不论是今天要给大家介绍的信息抽取统一模型,还是再往大了说多模态统一模型,理论上来说这个idea的出发点还是不错的,在理想情况下,他可以将很多任务建模到同一个模型,使得任务之间可以相互增益,而且另外一个好处就是既然统一到同一个模型了,那么各个任务的数据集都可以使用,一块丢进去进行学习,数据量剧增。今天要介绍的这篇paper是对文本的信息抽取任务进行统一模型设计,关于多模态数据集的统一模型,大家感兴趣的话可以看笔者之前的写过的一篇文章:最新图文大一统多模态模型:FLAVA原创 2022-04-09 22:31:07 · 1285 阅读 · 0 评论 -
论点挖掘小技巧
前言今天给大家介绍一个有意思的NLP任务:观点挖掘即Argument Mining ,其目的是要挖掘人的观点,应用场景也比较广泛。如果从大的技术选型角度看,Argument Mining基本上属于实体关系抽取,即要完成两个基本任务:(1)观点抽取即实体抽取(2)观点之间的关系抽取即实体关系抽取论文链接:https://arxiv.org/pdf/2203.12881v1.pdf下面我们就快速来看看这篇paper用了什么小技巧领域自适应这里主要就是先用类似Reddit这种 具有讨论原创 2022-03-28 10:36:29 · 1642 阅读 · 1 评论 -
最新图文大一统多模态模型:FLAVA
前言多模态已是当下比较热的研究方向了,基于transformer框架的预训练多模态模型也是百花齐放,比如VILBERT等等。关于当前多模态的模型,笔者之前在微信公众号写过一篇综述,感兴趣的可以看一下:多模态预训练模型综述紧跟研究热点,快来打卡多模态知识点吧~https://mp.weixin.qq.com/s?__biz=MzkzOTI4ODc2Ng==&mid=2247485865&idx=1&sn=b5c092b74044e5509f313f2803e982e6&原创 2022-01-05 16:34:29 · 4115 阅读 · 0 评论 -
最新对话系统综述
前言首先介绍一篇对话系统领域综述最新的paper,写的非常好2021年南洋理工大学发表的论文: https://arxiv.org/pdf/2105.04387.pdf第一章:简要介绍对话系统和深度学习。第二章:讨论现代对话系统中流行的神经模型及其相关工作。第三章:介绍面向任务对话系统的原理和相关工作,并讨论研究挑战和热门话题。第四章:介绍开放域对话系统中的原创 2021-12-17 21:21:15 · 1727 阅读 · 0 评论 -
最新压缩模型:只用原来20%的计算量就能保持原有模型效果的压缩预训练方法!!!
前言国庆最后一天偶然刷到一篇有关压缩预训练模型的最新paper,是清华和微信合作的新作,且不说提出的方法好不好,单单其发现的一个现象就挺有意思和值得思考:发现预训练模型大部分参数都有用,意味着大模型剪枝等压缩技术势必会影响模型效果;但是同时每个输入又只会激活模型中非常少的参数(大部分在5%以下)。针对上述发现的稀疏激活现象,paper将参数划分成若干experts,从而形成一个**同等参数规模**的MoE模型,最后达到节省每次计算量只用原来的20%就能保持原有模型的效果。接下来具体看看怎么做的吧~~原创 2021-10-08 10:17:17 · 502 阅读 · 0 评论 -
事件抽取最新论文
前言:文档级事件抽取旨在从整个文档中识别并提取事件的结构化信息,这在一些业务场景也是一个基础能力,这里单独开一篇博客,来罗列一些最新的研究论文,供学习GIT现有方法往往集中在句子级的事件抽取,无法直接应用与文档级的抽取任务。不同于句子级别的任务,文档级的事件抽取存在以下两个挑战:a)目标事件的论元分散在文档的多个句子中;b) 事件记录之间存在一定的相关性。该篇论文一定程度上解决了上诉问题:论文链接:https://aclanthology.org/2021.acl-long.274.原创 2021-09-22 21:12:57 · 919 阅读 · 0 评论 -
NER最新进展
NER场景,其实在实际业务中也非常常见,现在也有很多基于这方面的研究,这里单独开一篇博客,不断积累记录这方面的研究和方法,供学习MECT论文标题:MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition论文链接:https://aclanthology.org/2021.acl-long.121.pdf主要创新点就是在模型中融合进汉字的结构信息(例如部首等)。原创 2021-09-22 17:31:46 · 1169 阅读 · 0 评论 -
few-shot小样本
前言小样本场景,其实在实际业务中非常常见,现在也有很多基于这方面的研究,往大了讲就是半监督的学习,具体的有基于对比学习等等方法,这里单独开一篇博客,不断积累记录这方面的研究和方法,供学习。美团的技术应用小样本学习及其在美团场景中的应用基于对比学习的一个小实践:文本挖掘从小白到精通(二十六)---使用对比学习解决训练数据极少的标签甄别问题图片领域Align before Fuse: Vision and Language Representation Learning with M原创 2021-09-22 17:23:25 · 463 阅读 · 0 评论 -
工程化- A/B test
今天读到一篇博客,是将ABtest实验翻车的事情的,觉的很有意思,对我们分析问题或者说追踪问题时很有帮助,特此记录,可以看一下:ABtest这么简单,我做个实验怎么还会翻车?原创 2021-09-22 17:15:36 · 91 阅读 · 0 评论 -
三元组抽取
前言三元组抽取是个很基础的任务了,关于这方面的研究paper很多很多了,这里就罗列一些最新的动态,供不断学习吧。ABSA/ASTE这是抽取细粒度情感三元组的综述,可以看看:细粒度情感三元组抽取任务及其最新进展更新中...原创 2021-09-22 17:10:07 · 592 阅读 · 0 评论 -
embedding 的长短学习
这篇paper很有意思,我们平常使用的embedding 基本上都是定长的,但是想一想对于高频次的特征,其实需要更高维度的emb来表征,但是对于一些低频次的特征,其实不需要那么高维度的emb来表征,容易过拟合,那么怎么来动态的学习这个长度呢,阿里这篇paper就是解决这个事情的,其带来的好处就是节省了存储空间并很好的支持模型特征向量的热启动:Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based La原创 2021-09-22 16:57:14 · 398 阅读 · 0 评论 -
预训练模型:prompt
前言关于预训练模型的prompt这一idea也火了一段时间了,关于这方面的paper和解读也有很多了,结合笔者看的,这里简单总结罗列一下,供后续学习回顾。应用其实一切出发点就是适配了预训练任务,我们的预训练任务,基本上标配就是MLM和NSP,尽可能的去适配它,进而取的好效果,其可以解决的问题基本上涵盖了所有nlp任务,分类啊,序列预测啊等等,甚至可以解决小样本学习等等,可以看看工业界prompt的实践:格局打开,带你解锁 prompt 的花式用法MLM当前大部分论文都是围绕预训练任务原创 2021-09-22 16:48:55 · 3465 阅读 · 0 评论 -
新类识别/领域自适应-聚类
前言这块应用在实际业务中非常常见,比如新意图识别等等,不管具体任务是什么,本质上就是在做一个事:给样本分类,但是又没有标签数据。一般来说就是通过聚类来完成,使用的feature多种多样,比如现在大火的预训练模型,关于这块的研究其实也有不少,也有很多trick,但是网上很少有这块的总结,这里就列举一些该领域的一些近期paper,供提供思路。CDAC+论文:https://ojs.aaai.org/index.php/AAAI/article/view/6353论文源码:https:原创 2021-09-22 16:34:14 · 1822 阅读 · 0 评论 -
日常实用小demo
前言日常工作中,有一些代码的复用是非常高频的,每次用的时候都要搜一遍找到,很费时间,这里就整理一些日常常用的,快速copy,开始个人的debug吧!!tensorflowerimport tensorflow as tfimport numpy as np# input_ids = tf.placeholder(dtype=tf.int32, shape=[None,4])# input_len = tf.placeholder(dtype=tf.int32, shape=[None,原创 2021-08-12 18:08:58 · 160 阅读 · 0 评论 -
压缩模型NAS
前言:bert等预训练模型虽然大放异彩,但是实际在落地的时候还是遇到各种问题,比如:储存空间的限制,时延的限制等等。为此有很多工作都是针对预训练模型的压缩展开的。比如最常见的就是模型蒸馏,今天想说的是另外一个思路:NAS即模型搜索,其主要思路就是不需要人为去设计特定的网络,而是让模型自己去选择,这类方法通常需要考虑的两点就是:(1 )怎么定义候选空间。(2 )加速训练缺点其实很明显了,那就是耗时、资源,今天就来看一篇。TASK-AGNOSTIC ANDADAPTIVE-SIZEBER..原创 2021-07-27 16:45:39 · 1484 阅读 · 2 评论 -
mask策略
前言预训练模型的trick可谓是百花争艳,有从模型入手的,有从数据入手的,今天来说说mask派系,从bert最开始的mask token 到后面ernie的 mask entity以及还有mask n-gram,动态mask等等,都提出很多有意思的idea。接着百度ernie最新【2021.5.20】放出的ernie-gram,里面也详细的讨论归纳了一些mask策略,一起看一下需要八卦一下的是:很多ernie的研究【ernie-doc,ernie-gram等等】并没有给出预训练实现代码,只给出.原创 2021-06-24 16:37:50 · 1284 阅读 · 0 评论 -
huggingface transformers框架学习
该框架可以说非常简单,是基于pytorch的预训练框架,很多开源项目都是基于其开发的,所以学一学很有必要,对我们自己idea的快速落地也有很大的帮助。首先是fintun原创 2021-06-18 16:33:20 · 952 阅读 · 0 评论 -
ERICA 代码解读
前言这是一篇预训练模型数据预处理该部分代码在./pretrain/prepare_pretrain_data原创 2021-06-17 21:33:02 · 960 阅读 · 1 评论 -
对比学习火了
前言最近对比学习火起来了,其思想特别简单但有效,总结起来就是:对一条样本x1通过数据增强得到x2,那么这就是一对正样本对,和其他样本就是负样本对。原创 2021-06-15 18:20:11 · 2346 阅读 · 0 评论 -
测试算法有效性:显著性分析
前言今天偶尔刷到一篇博客如下,里面涉及到了很多数学小知识点,基本都是很实用的数学常识,不论从事什么领域,其实都很有帮助,为此记录一下吧。https://mp.weixin.qq.com/s/RLbrf-HNc79P7jaU2Sr29Q下面分多个大标题,记录一下各个使用的点显著性分析这是非常重要了,可以参考https://blog.csdn.net/championkai/article/details/80206704基本上我们要分析两个变量或多个变量之间的差异有多大,就会用到显原创 2021-05-23 10:50:12 · 5605 阅读 · 1 评论 -
纠偏正负样本
前言在实际创建中,正样本偏差论文:https://arxiv.org/pdf/2006.04153.pdf代码:https://github.com/WenjieWWJ/DenoisingRec一些解读博客:(1)https://mp.weixin.qq.com/s/T9VHiYdBY6Vrn0J9yuNlyw(2)https://mp.weixin.qq.com/s?__biz=Mzg4MzU1NjQ2Mw==&mid=2247502031&idx=1&a.原创 2021-05-22 17:25:44 · 893 阅读 · 0 评论 -
bert多任务
目录前言方案encoder完全共享Conditional Layer Normalization训练方式前言bert多任务可以应用在多种场景。(1)主辅任务:比如我们当前进行任务A,但是我们可以构造一个辅助任务B一起参与训练,来达到提高任务A性能的目的,笔者之前做过阅读理解任务,通过构建一个mlm辅助任务可以提高任务A,(2)还有的场景是:本身就需要进行多个任务,比如ABC,一样重要,但任务类型相似,如果分开训练,那么就需要3个模型,可不可以共享一个模型呢?即共享大部分参数.原创 2021-04-18 11:55:34 · 979 阅读 · 0 评论 -
bert 对抗训练实现代码
前言:对抗训练是魔改训练方式的一种,凡事对抗一下,说不定可以提高性能,建议都试一试,网上关于对抗训练的代码已经有很多啦,笔者这里简单汇总一些,供快速应用到自己的代码中,看效果,下面的代码包括FGSM,PGD.FreeLB,Adv参考资料FGSM,PGD.FreeLB:https://github.com/lonePatient/TorchBlocks/blob/e6c5959e6a3d3380bbb147f1c30f752cd8482c1a/torchblocks/callback/a.原创 2021-04-06 13:13:09 · 4838 阅读 · 8 评论 -
在线ner识别
前言日常工作中,我们有时候需要识别出一些常见的实体用以后续过滤等目的,如时间地点公司等常见实体,本文介绍两种。pyltp这是哈工大一个nlp分析包,具有类似jieba的分句、分词、词性标注、实体识别、情感等等github:https://github.com/HIT-SCIR/ltp首先pip 安装一下,如果不能安装,笔者也准备好了whl,可以直接下载https://download.csdn.net/download/weixin_42001089/11192863?spm=100原创 2021-03-11 12:00:23 · 852 阅读 · 0 评论 -
下载使用预训练模型资源
我们经常需要使用一些预训练模型来进行下游任务,大家可以关注如下开源项目Hugging Face 上面开源提供了基于通用架构(如 BERT,GPT-2,RoBERTa)的数千个预训练模型,并提供了 PyTorch 和 TensorFlow 的良好互操作性。下载的时候如果较慢,可以使用清华镜像https://mirrors.tuna.tsinghua.edu.cn/help/hugging-face-models/实际项目中,可能我们更多时候需要中文预训练模型:https://zhuan原创 2021-03-07 09:13:40 · 786 阅读 · 1 评论 -
Transformer的变体
前言:transformer 变种千千万,每一次的改变都是一篇paper,大家的出发点基本都是从效率和速度考虑的,一起看看吧,笔者也是基于https://mp.weixin.qq.com/s/iuuRS_M3cYm0DXFkZGjjBg简单总结,高度概括一下核心思想以及一下延伸,细节的话可以直接看上述博客或者具体paper,已经非常详细了,下面部分话和图出自上述博客总体图:Transformer-XL...原创 2021-03-06 19:11:26 · 2039 阅读 · 0 评论 -
NLP中的Tokenization
前言当前最火的预训练模型大放异彩,但是在进行输入模型前,我们都需要将纯文本数学化,比如bert的tokenization,它就是将文本分割成token,然后量化成id。今天就来说说tokenization,目前关于这方面的研究已经有很多了,本质上其主要目标就是在于如何获得理想的切分,使文本中所有的token都具有正确的表义,并且不会存在OOV问题。关于该方面博客也发现一篇比较好的文章https://zhuanlan.zhihu.com/p/340473354...原创 2021-03-06 16:04:01 · 2255 阅读 · 0 评论 -
标签分布学习
目录前言传统的方法论文方法总结前言一般来说我们的标签数据都是硬标签,非0即1,如one-hot或multi-one-hot,但是一些软标签有时候更具有意义,含有的信息也越丰富,即标签分布如【0.1,0.2,0.7】而不是【0,0,1】,那么该如何学习得到这样的标签分布呢?有一篇论文对此进行了讨论和研究Label Enhancement for Label Distribution Learning这是发表在IJCAI-18的一篇,即标签增强技术,已有中文解读https原创 2021-02-23 11:04:29 · 3859 阅读 · 0 评论 -
LDA困惑度
用perplexity去看主题个数,代码供参考import reimport mathimport jsonimport randomimport requestsimport pandas as pdfrom gensim import corpora, modelsimport jieba.posseg as jp, jiebafrom gensim import corpora, modelsimport matplotlib.pyplot as pltfrom tqdm i原创 2021-02-22 15:46:17 · 1756 阅读 · 4 评论 -
半监督之伪标签法
前言半监督学习一般有两个方法一致性正则和打伪标签法即 consistency regularization 和 pseudo-label, 其中一致性正则主要是基于数据增强的一致性正则,目前比较成熟,关于数据增强笔者也总结过一篇博客即《半监督之数据增强》: https://blog.csdn.net/weixin_42001089/article/details/113307918今天来看看打伪标签法,这个其实原理很简单,就是先用少量的有标签数据训练一个基础模型,然后用其对大量无监督数据进行预测原创 2021-02-22 08:54:01 · 6976 阅读 · 1 评论 -
NLP漏标问题
前言不管在什么任务中进行监督学习,都需要标签,但一般会存在有标签数据不足,这个问题已经很常见了,可以看看《半监督小样本数据学习》https://blog.csdn.net/weixin_42001089/article/details/113307918?spm=1001.2014.3001.5501但是今天我们来说说另一个情况,那就是漏标问题,这个问题更加严重,为什么呢?因为漏标了我们就会自动认为其是负样本,这其实是一种噪声了,而且是很严重的噪声,当然了和错标还有区别,错标是也可能会吧负样本标原创 2021-02-21 17:09:45 · 632 阅读 · 1 评论 -
自适应决策边界分类
前言有的时候,我们有一个任务是m分类,但是呢并不是所有的样本一定属于这m类中的每一类,我们暂且把这部分样本称为噪声吧,所以我们的任务就是不但要对该样本进行正确分类,且当它是噪声的时候我们还要检验出来,怎么做呢,一般是有两种想法:(1)设定概率阈值,将最大分类置信度低于阈值的样本看作噪声;(2)结合m类样本几何特征通过决策边界或者分布密度将噪声分离出来。今天偶然刷到一篇论文就是基于第(2)种思路来进行的《Deep Open Intent Classification with Adaptive原创 2021-02-14 18:52:29 · 3385 阅读 · 0 评论 -
文本半监督聚类
前言聚类很常见了,很多场景下都需要聚类,笔者当前遇到一个问题是实体消歧,实体是一个个小短句,没有标注没有任何先验知识,想到的就是通过聚类将一些相似实体聚在一起达到目的。当前聚类有两大种,比如需要提前定义簇中心个数的,以Kmeans最为大家熟知,原理简单有效。还有一种是不需要提前定义簇中心个数的,比如流式聚类。一般情况下,簇中心个数是很难知道的,所以可以选流式聚类等等,但今天要说说收录在AAAI 2021的一篇论文《Discovering New Intents with Deep Aligned C原创 2021-02-14 18:01:10 · 1354 阅读 · 0 评论 -
无监督分类
目录前言:标签名称替换类别预测自训练总结前言:在训练模型的时候,比如分类任务等等,都需要有标签数据进行监督学习,即使是要少量的标签数据,也可采用半监督的方式来提高模型的泛化性,关于一些最新的半监督学习可以参看笔者另一篇博客:《半监督小样本数据学习》:https://blog.csdn.net/weixin_42001089/article/details/113307918但是今天要分享的这篇论文是EMNLP20论文《Text Classification Usin.原创 2021-02-06 22:32:07 · 3399 阅读 · 1 评论 -
多模态预训练模型
前言自从2018年Bert预训练模型大方异彩之后,预训练模型可以说百花齐放,关于预训练模型领域的一些总体概括,可以参考笔者另一篇博客<预训练模型的那些方向和研究成果>:https://blog.csdn.net/weixin_42001089/article/details/113267764之前都是单独处理文本数据,但随着场景和业务的驱动,输入数据变成了多种形式,如图像+语言,今天就大体来说说目前该分支的一些发展成果或者方法,主要是对百度自然语言处理部高级研发工程师唐尼老师的一个论原创 2021-01-29 20:44:57 · 4180 阅读 · 1 评论 -
半监督之数据增强
前言有许多场景,我们只有少量样本,而训练网络模型时是需要吃大量数据的,一种方法就是迁移学习,比如预训练模型等方法,但是这里我们从另外一个角度来看看,那就是数据增强,关于数据增强方法已有很多,这里说说一些常见的方法,尤其是最新的(当前时间是2021.1.28)一些方法。传统常见的比如对于文本数据来说,最容易的就是shuffle, drop, 同义词替换,回译,随机插入,等等,这些都是一些最基本的方法,依据token 在本身上面做些扰动改变来数据增加,更多的可以看一下nlpcda这个python包原创 2021-01-28 09:51:40 · 4638 阅读 · 1 评论 -
测试集没有标签怎么评价?
背景:很多时候当我们需要评价一个模型的性能时,是通过看其在测试集上面的一些评价指标如precision、recall等等,但是这需要一个大前提,那就是测试集得有标签,如果没有标签就无法进行计算,实际场景中很多测试数据集都是没有标签的。为此最粗暴的就是人工打标,这个最好了,但是当测试集很大或者很多,那标起来成本就很高,为此怎么办?接下来就聊一聊一些已有的解决办法,供借鉴。activate learning即主动学习,既然人打标成本太高,那就让程序打标,他的主要思路如下:先人工打标一批少量的原创 2021-01-25 20:30:12 · 5590 阅读 · 0 评论