![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp学习
文章平均质量分 51
HxShine
这个作者很懒,什么都没留下…
展开
-
符尧:别卷大模型训练了,来卷数据吧!【干货十足】
文章地址:https://本文回顾了语言模型学习的一些现象grokking, log-linear scaling law, emergent abilities,以及影响学习速度的数据因素data format, mix ratio, and curriculum(数据格式、混合比例和课程)。总结1: 数据工程的目标是建立一种理论并指导我们做数据(以及其他重要的学习因素),以便我们可以在没写一行代码时就可预测每项任务的最终表现(而不仅仅是预训练损失)。原创 2023-10-17 09:02:46 · 284 阅读 · 0 评论 -
PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning论文学习
PLATO-2对话论文学习原创 2023-04-19 13:53:18 · 266 阅读 · 0 评论 -
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models论文学习
GPT系列模型在NLU任务上的表现评估原创 2023-04-18 10:34:56 · 235 阅读 · 0 评论 -
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable论文学习
PLATO对话生成论文解读原创 2023-04-18 09:11:07 · 150 阅读 · 0 评论 -
Learning to Memorize Entailment and Discourse Relations for Persona-Consistent Dialogues论文学习
■ 对话系统的engagement和consistency非常重要■ 现有方法● 复杂的网络结构->大量的标注语料● 忽视了篇章的连贯性(discourse coherence)■ 本文● 方法○ entailment(限定继承):利用NLI(自然语言推理)数据学习一个继承关系的记忆单元,来应用到挖掘对话生成数据的潜在蕴含关系挖掘中○ discourse relations(话语关系):难道是对话间的关系?可能是连贯性。原创 2023-04-14 11:17:53 · 247 阅读 · 1 评论 -
信息抽取模型优缺点总结和优化点梳理
关系抽取模型优缺点分析和优化思路总结原创 2022-10-25 15:56:23 · 512 阅读 · 0 评论 -
如何理解联合关系抽取模型GPLinker?
GPLinker联合关系抽取模型解读原创 2022-10-20 16:13:54 · 2761 阅读 · 1 评论 -
信息抽取数据集和相关SOTA介绍
信息抽取数据集和相关SOTA介绍原创 2022-10-19 16:57:04 · 1164 阅读 · 0 评论 -
刷爆3路榜单,信息抽取冠军方案分享:嵌套NER+关系抽取+实体标准化文章学习总结
实体关系抽取学习总结原创 2022-10-18 20:15:22 · 199 阅读 · 0 评论 -
A Frustratingly Easy Approach for Entity and Relation Extraction 论文阅读
PIPELINE关系抽取最强模型解读原创 2022-09-28 16:50:13 · 610 阅读 · 1 评论 -
BERT-MRC数据预处理解读(以datasets squad数据为例)
BERT-MRC数据预处理详细解读原创 2022-09-04 00:54:15 · 797 阅读 · 0 评论 -
百度UIE:Unified Structure Generation for Universal Information Extraction paper详细解读和相关资料
UIE:Unified Structure Generation for Universal Information Extraction 模型解读和相关资源整理原创 2022-08-23 21:29:20 · 1897 阅读 · 1 评论 -
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding解读
一、概述二、详细内容abstracta. deberataV3, debearta的改进版本b. 方法1(改进mlm):通过使用RTD来替换原始的MLM任务,一个更有效的简单的预训练方法c. 方法2(改进electra):ⅰ. 原因:鉴别器和生成器将所有的token放到不同的方向,一直在那里拔河,tug-of-warⅱ. 方法:梯度解纠缠embedding来避免拔河ⅲ. 好处:提高训练效率+提升预训练模型质量d. 效果ⅰ. 和deberta一样的设置ⅱ. v3 large模型:NL原创 2022-04-02 15:55:45 · 2404 阅读 · 0 评论 -
Esimcse:Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding论
1 Abstractsimcse:两个文本不同dropout放到transformer里面,无监督来学习可能的缺点:embedding的时候,两个句子的长度都是一致的,这里可能会有biased,因为线上可不是这样的。实验统计观察,发现确实有这样的biased如何优化repetition operation来减轻它的影响momentum contrast?提高负样本对的数量?效果:比无监督的simcse好了2.02%ps:相关性统计指标pearson:协方差除以各自标准差原创 2022-04-02 10:33:23 · 1188 阅读 · 0 评论 -
seq2seq模型学习总结【用作query rewrite问题生成模型】
一、概述鱼与熊掌兼得:融合检索和生成的SimBERT模型:https://kexue.fm/archives/7427SimBERTv2来了!融合检索和生成的RoFormer-Sim模型:https://kexue.fm/archives/8454代码v1:https://github.com/ZhuiyiTechnology/simbert/blob/master/simbert.pyv2:https://github.com/ZhuiyiTechnology/roformer-sim二、代原创 2022-04-02 10:16:10 · 472 阅读 · 0 评论 -
DEBERTA: DECODING-ENHANCED BERT WITH DIS- ENTANGLED ATTENTION glue榜首论文解读
一、概览二、详细内容abstracta. 两个机制来improve bert和 robertaⅰ. disentangled attention mechanismⅱ. enhanced mask decoderb. fine-tuning阶段ⅰ. virtual adversarial training -> 提升泛化c. 效果ⅰ. 对nlu和nlg下游任务,提升都比较大ⅱ. 用一半的训练数据,效果就比roberta-large好了ⅲ. 48层的deberta,在21年6月原创 2022-03-15 17:18:09 · 1367 阅读 · 0 评论 -
再看SimCSE
一、概述二、要点分析原始ppt解读2.1 作用:语义表达作用检索+聚类2.2 简述:简单的对比学习来做语义表征预训练+对比学习:最佳的语义表征方法无监督:dropout有监督:NLI 蕴含+矛盾数据原理:利用对比学习目标,将预训练的embedding进行uniform化利用监督数据,aligns对齐相同语句的embedding表达2.3 原理:对比学习原理拉近邻居,push非邻居2.4 目标函数:无监督学习目标函数正样本:相同句子,独立的dropout原创 2022-01-10 16:05:56 · 698 阅读 · 0 评论 -
向量检索基础方法总结
一、向量检索图解总结原文:大规模特征向量检索算法总结 (LSH PQ HNSW):https://www.6aiq.com/article/1587522027341「向量召回」相似检索算法——HNSW:https://mp.weixin.qq.com/s/dfdNj9CZ3Kj2UwDr9PQcVg二、原始内容2.1 基础概念2.1.1 度量方式:欧式距离,cos距离,汉明距离,jaccard相似度2.1.2 分类● 基于空间划分○ 举例:乘积向量化,哈希等○ 优点:内存占用小,原创 2021-12-21 17:47:03 · 3075 阅读 · 0 评论 -
再看同义变换在百度搜索广告中的应用总结
一、概述原文:同义变换在百度搜索广告中的应用,https://mp.weixin.qq.com/s/ybkbU8p_3jgKuCGdNWeG8w二、 关键词匹配问题定义2.1 定义输入:query、匹配模式、关键词库输出:满足匹配的全部关键词限制:匹配模式2.2 例子:○ query:双眼皮手术多少钱?○ Match type:精确匹配○ 一些典型的目标召回关键词:■ 双眼皮手术的价格?■ 双眼皮手术多少钱?■ 割一个双眼皮花多少钱?三、 问题挑战Semanti原创 2021-12-20 17:33:39 · 1955 阅读 · 0 评论 -
搜索引擎召回策略总结
一、搜索引擎召回策略的方法和注意事项(自己能想到的&待补充)二、相关资料同义变换在百度搜索广告中的应用https://mp.weixin.qq.com/s/ybkbU8p_3jgKuCGdNWeG8w美团搜索中NER技术的探索与实践https://tech.meituan.com/2020/07/23/ner-in-meituan-nlp.htmlR&S[22] | 搜索系统中的召回【机制的叉烧】https://zhuanlan.zhihu.com/p/10242原创 2021-10-21 10:57:29 · 1284 阅读 · 0 评论 -
文本相似度与向量检索相关资料
https://github.com/facebookresearch/faiss/wiki/Getting-started1 CentOS7上faiss环境准备https://blog.csdn.net/jollyjumper/article/details/850470022 FAISS 教程https://zhuanlan.zhihu.com/p/3206533403 Billion-scale semantic similarity search with FAISS+SBERThttp原创 2021-10-21 10:42:35 · 184 阅读 · 0 评论 -
KDD‘21 | 淘宝搜索中语义向量检索技术博客学习
原文:KDD’21 | 淘宝搜索中语义向量检索技术https://zhuanlan.zhihu.com/p/409390150?utm_source=wechat_session&utm_medium=social&utm_oi=637963847940706304作者微信公众号:https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzU0MDA1MzI0Mw==&scene=124#wechat原创 2021-09-17 19:54:42 · 466 阅读 · 0 评论 -
On the Sentence Embeddings from Pre-trained Language Models paper阅读
abstract没有经过fine-tuning的embedding在语义计算上效果非常差bert总是一个非平滑的各向异性的空间语义表达,对于以相似度的计算有害处本文想办法将其转化成平滑的并且各项同性的高斯分布的表达,并且是通过无监督学习来做到的,效果得到了巨大的提升1 introduction为啥bert embedding表现差,是包含语义信息过少吗?平均提升8.16个点,评价函数是Spearman correlation,用cosine来计算相似度流式生成模型,通过无监督训练,使b.原创 2021-08-10 12:54:09 · 308 阅读 · 0 评论 -
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks paper学习
abstract计算相似度,原始bert需要将两个句子都放到里面去重新计算,计算量非常大。本文修改预训练bert的网络结构,利用siamese和triplet网络结构来计算语义相似度优化了速度,维持了精度1 Introduction本文可以支持将bert用于大规模的相似度比较,聚类,信息检索,以及语义搜索。现在比较常见的方法是取最后一层bert的平均值,或者取cls特征。上面两个取得的embedding效果非常差,可能比平均Glove embedding还差比inferSent网络居然高了.原创 2021-08-03 11:42:30 · 368 阅读 · 0 评论 -
知识蒸馏博客阅读与理解学习
如何理解soft target这一做法? - YJango的回答 - 知乎https://www.zhihu.com/question/50519680/answer/1364066611. 是什么2. 温度的作用2.1 概述2.2 举例知识蒸馏:深入理解温度的作用https://blog.csdn.net/weixin_39078049/article/details/1030326253. 与正则,drouput,预训练在模型提升效果上的区别训练集采样(dropout)网络结构原创 2021-08-02 11:50:03 · 219 阅读 · 0 评论 -
Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data论文学习
Abstract无监督学习对nlp任务例如ner任务结果有促进作用之前的工作只focuses在无监督做ner模型,没有任何标注,证明了能取得好的表现,但是效果还是比完全监督学习来做ner差。本文更考虑一个实际的场景,少量强标注数据&大量弱标注数据,但是发现,弱标注数据没啥用,反而可能使模型更恶化。为了解决这个问题,本文提出了一个多步的框架:1. 若标签完成,2. noise相关的loss函数,3. 在强标注数据上finetune来实现,通过在电商query-ner以及生物ner的数据上,.原创 2021-07-23 17:05:23 · 686 阅读 · 0 评论 -
搜狐文本匹配算法比赛top2解读
原文:https://zhuanlan.zhihu.com/p/388854673代码解读基于torch实现model:https://github.com/Decem-Y/sohu_text_matching_Rank2/blob/main/%E5%86%B3%E8%B5%9B%E6%8F%90%E4%BA%A4/sohu_matching/src/model.py多个模型,包括bert,nezha,两个句子分开encode,coattention模型data:https://githu原创 2021-07-13 11:06:17 · 897 阅读 · 0 评论 -
Vocabulary Learning via Optimal Transport for Neural Machine Translation论文解读
abstracttoken vocabulary的选择对机器翻译结果的影响比较大本文研究什么样才是好的词表,并且能不能不通过训练直接找到最优的词表首先提供一种从信息理论的角度来分析词表的作用通过optimal transport的思路来找到最佳token词典,并且有一个合适的词表大小,不用训练降低70%的词表大小,取得0.5bleu提升相对于BPE-search,搜索时间从384gpu->30gpu,这个的意思有些没看懂,是指vocabularies的时间。背景:当所有样本等几率出现.原创 2021-07-13 11:00:07 · 1830 阅读 · 0 评论 -
tBERT: Topic Models and BERT Joining Forces论文学习
一、概览二、论文解读abstract如何结合topic和预训练模型?提出了新的架构来做pairwise的语义相似度检测发现topics极大地帮助解决领域知识的问题1.introduction预训练模型建立了新的一个王国paraphrase的检测提升比较大,semantic similarity detection还是个挑战,例如社区问答项目,需要衡量question-answer对之间的关系,因为高度领域相关,所以还是比较有挑战。topic models提供了额外领域相关的语义的信息来做原创 2021-07-02 16:32:42 · 635 阅读 · 3 评论 -
SimCSE学习
0. 参考中文任务还是SOTA吗?我们给SimCSE补充了一些实验:https://kexue.fm/archives/8348simcse在英文数据上显著超过了bert-flow和bert-whiteningSimCSE—简单有效的对比学习:https://zhuanlan.zhihu.com/p/3756593681. 概述2. 什么是SimCse2.1 无监督的训练方法一个句子,encoder得到embedding,通过dropout得到的embedding作为正例,其他的句子得到原创 2021-06-21 13:35:40 · 5349 阅读 · 0 评论 -
标签平滑学习
一、总结原文:标签平滑(Label Smoothing)详解https://www.cnblogs.com/irvingluo/p/13873699.html目的:防止模型在训练的时候,过于自信的预测标签,改善泛化能力。why:logits->z->softmax->prob->target=1,正样本为1,使得z趋向于无穷大,过大的logit z差值使模型缺乏适应性,导致过拟合,泛化能力差。how:y_new = y_hot*(1-a) + a/k,a为超参数,k为类别原创 2021-06-08 15:03:36 · 303 阅读 · 1 评论 -
2020法研杯比赛阅读理解任务冠军参赛总结学习
总结数据方面做了构造和清洗,提升比较多。预训练提升不大模型融合有提升魔改模型没看到明显提升https://mp.weixin.qq.com/s/q9wYP0zJgXlKHFtqkCgzNQ原创 2021-06-08 11:22:01 · 422 阅读 · 0 评论 -
MRC Framework for Named Entity Recognition【代码解读】
一、预备知识介绍文章A Unified MRC Framework for Named Entity Recognition【文章学习】:https://blog.csdn.net/qq_16949707/article/details/115517783?spm=1001.2014.3001.5501[NLP]MRC is All you Need?https://zhpmatrix.github.io/2020/05/07/mrc-is-all-you-need/中文NER任务实验小结报告原创 2021-06-03 20:59:49 · 1038 阅读 · 3 评论 -
如何只用bert夺冠之对比学习代码解读
有监督对比学习:Supervised Contrastive Learning:https://zhuanlan.zhihu.com/p/1363321511. 自监督对比学习一句话总结:不使用label数据,通过数据增强构造样本,使特征提取器提取的特征在增强样本和原始样本的距离更近,其他数据特征与原始样本的更远来训练特征提取器的方法。关键思想:一个batch=n的数据,增强一次变成2n的数据,loss函数如下:2. 监督对比学习把标签数据加进来,但是计算loss还是以一个batch=n,自监原创 2021-05-19 20:04:16 · 1834 阅读 · 4 评论 -
知识蒸馏新解法学习
论文:https://jiaya.me/papers/kdreview_cvpr21.pdfhttps://mp.weixin.qq.com/s/C8tF3ILU6lpMBp0hkNDhRQ原创 2021-05-08 23:39:12 · 169 阅读 · 0 评论 -
NLP分词算法深度综述学习总结
原文:https://zhuanlan.zhihu.com/p/50444885原创 2021-04-27 15:19:47 · 168 阅读 · 0 评论 -
Pattern-Exploiting Training MLM任务用于文本匹配【代码解读】
一、总结• 原文:# PET-文本分类的又一种妙解:https://xv44586.github.io/2020/10/25/pet/# ccf问答匹配比赛(下):如何只用“bert”夺冠:https://xv44586.github.io/2021/01/20/ccf-qa-2/三、代码注释原始链接:https://github.com/xv44586/ccf_2020_qa_match# -*- coding: utf-8 -*-# @Date : 2020/11/4# @Au原创 2021-04-20 21:27:31 · 1443 阅读 · 0 评论 -
Whitening Sentence Representations for Better Semantics and Faster Retrieval论文学习
一、总结二、详细1. abstractsentence语义表达非常重要,但是直接用bert来做embedding效果比较差,如果来做呢?基于flow的方式有了不少的提升,本文发现传统的whitening操作的方式对sentence的语义表达也有着非常大的提升,实验表明,whitening方法还能给embedding进行降维并显著的提升检索的速度。2. introducton预训练提取到的sentence中word的表达不是各向同性的,造成直接计算cosine相似度效果不好,bert预训练有两个问原创 2021-04-16 13:19:20 · 571 阅读 · 0 评论 -
Extractive Summarization as Text Matching论文学习
一、总结代码:https://github.com/maszhongming/MatchSum感觉论文讲的不清不楚的啊,一头雾水。原创 2021-04-14 15:44:53 · 761 阅读 · 0 评论 -
BERT 蒸馏在垃圾舆情识别中的探索【文章学习】
一、总结原文:BERT 蒸馏在垃圾舆情识别中的探索:https://mp.weixin.qq.com/s/ljYPSK20ce9EoPbfGlaCrw二、其他资料Distilling Task-Specific Knowledge from BERT into Simple Neural Networks论文学习:https://blog.csdn.net/qq_16949707/article/details/115300853匹配模型蒸馏,bilstm,数据增强,包括代码Distil原创 2021-04-12 11:48:20 · 161 阅读 · 0 评论