![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 76
北在哪
这个作者很懒,什么都没留下…
展开
-
Python ElasticSearch安装
【代码】Python ElasticSearch安装。原创 2022-11-02 21:33:55 · 1550 阅读 · 0 评论 -
docker的ssh连接配置
docker的ssh连接配置原创 2022-08-16 14:49:05 · 1106 阅读 · 0 评论 -
MS MARCO Passage Ranking Leaderboard —— RocketQAv2
本文对 RocketQA 的第二代版本 RocketQAv2 进行解读,原文地址请点击此处。1. 背景介绍 按照retrieve-then-rerank的方式,段落检索中的密集检索器和段落重排序器共同对最终性能做出贡献。尽管这两个模块在推理阶段作为管道工作,但发现联合训练它们是有用的。例如,具有双编码器的检索器可以通过从具有更强大的交叉编码器架构的重排序器中提取知识来改进,同时重排序器也可以通过检索器生成的训练实例进行改进。因此,越来越多的人关注retrier和re-ranker的联合训练原创 2022-04-14 13:42:52 · 844 阅读 · 0 评论 -
MS MARCO Passage Ranking Leaderboard —— BM25 + monoBERT + duoBERT + TCP
本文对MS MARCO Passage Ranking 榜单的 BM25 + monoBERT + duoBERT + TCP 进行解读,原文地址请点击此处。1. 背景介绍 这个模型在MS MARCO上的最好成绩是0.38,和目前的SOTA 0.45有一定差距,但由于作者 Rodrigo Nogueira 等人在此前的一篇论文《Passage Re-ranking with BERT》中首次将BERT用于检索中的重排序任务,是将BERT作为重排序器的鼻祖,因此他的 BM25 + monoB原创 2022-04-13 18:46:17 · 2219 阅读 · 0 评论 -
MS MARCO Passage Ranking Leaderboard —— RocketQA
本文对MS MARCO Passage Ranking 榜单的榜12 (截止至2022/4/12)—— RocketQA 进行解读,原文地址请点击此处。1. 背景介绍 在开放域问答中,密集段落检索已成为检索相关段落以寻找答案的新范式。通常,采用双编码器架构来学习问题和段落的密集表示以进行语义匹配。然而,由于以下三大挑战,仍然难以有效地训练用于密集段落检索的双编码器。 首先,双编码器检索器的训练和推理之间存在差异。在推理过程中,检索器需要从包含数百万候选者的大型集合中识别每个问题的正原创 2022-04-12 21:15:36 · 1720 阅读 · 0 评论 -
ACL 2021 Question Answering
1. Few-Shot Question Answering by Pretraining Span Selection为了消除预训练与抽取式问答任务微调之间的GAP,设计了一种新的预训练方式:Recurring Span Selection。简单来说,就是利用一段文本中重复出现的span,比如下图中的"Roosevelt",选取其中一个"Roosevelt"作为答案,其他的使用[QUESTION]代替,预训练时使用[QUESTION]的输出来寻找答案"Roosevelt"的位置。微调时采用"文本[SE原创 2022-04-11 22:56:51 · 502 阅读 · 0 评论 -
MS MARCO Document Ranking Leaderboard —— UniRetriever
本文对MS MARCO Document Ranking 榜单的榜2 (截止至2022/4/11)—— UniRetriever 进行解读,原文地址请点击此处。原创 2022-04-11 21:21:34 · 1108 阅读 · 0 评论 -
最大熵模型原理小结
最大熵模型可以用于分类问题,是针对条件概率P(y|x)进行建模的判别式模型。其主要思想可以用一句话概括:在现有已知信息的约束以及没有更多已知信息的情况下,使条件概率P(Y|X)的分布更加均匀,这样获得的模型经验风险更小,鲁棒性更强。 使P(Y|X)分布更加均匀,从信息熵的角度来看,就是使条件熵H(Y|X)更大(最大熵),那么根据条件熵公式:H(P)=−∑x,yP(x,y)logP(y∣x)H(P)=-\sum_{x, y} P(x,y) \log P(y \mid x)H(P)=−x,y∑P(原创 2022-03-07 20:44:43 · 841 阅读 · 0 评论 -
QA中的信息检索技术(IR)整理
从广义上讲,目前的 Retriever 方法可以分为三类,即 Sparse Retriever、Dense Retriever 和 Iterative Retriever,下面将详细介绍。原创 2021-11-19 00:13:38 · 3985 阅读 · 0 评论 -
论文笔记:WARP: Word-level Adversarial ReProgramming
1. 大体框架与以往工作的不同:1)prompt在连续空间内优化,不在要求转换为离散token;2)prompt token 既可插在句子前部、尾部,也可插在句子内部;3)不使用训练好的MLM参数,直接取mask位置输出embedding与各个标签词的embedding做相似度计算,然后softmax:4)只训练prompt embedding以及标签词的embedding,其他参数固定。2. 实验结果...原创 2021-10-22 17:30:53 · 858 阅读 · 0 评论 -
论文笔记:BERTese: Learning to Speak to BERT
论文链接:BERTese: Learning to Speak to BERT - ACL Anthology代码开源:暂无1. 概要这篇论文和How Can We Know What Language Models Know?研究的问题一样,旨在找到更好的提示,从而提高从预训练模型中提取世界性知识的准确率。主要思想是训练一个模型,对原有的提示进行重写,然后再输入预训练模型中进行预测,大体框架如下:2. 核心算法论文将重构提示的模型称为rewri...原创 2021-10-21 22:53:12 · 334 阅读 · 0 评论 -
论文笔记:How Can We Know What Language Models Know?
论文链接:https://arxiv.org/abs/1911.12543代码开源:GitHub - jzbjyb/LPAQA: Language model Prompt And Query Archive原创 2021-10-20 09:38:57 · 1338 阅读 · 0 评论 -
论文笔记:Universal Adversarial Triggers for Attacking and Analyzing NLP
论文链接:https://arxiv.org/abs/1908.07125代码开源:https://github.com/Eric-Wallace/universal-triggers1. 主要内容将输入与一段提示拼接,即可引导模型输出想要的结果,且提示是与输入无关的,任意输入拼接上相同的提示,都大概率会产生特定的结果。如上图所示,对于情感分析任务,拼接trigger(即提示)会导致模型将正确的预测翻转为否定。对于阅读理解任务,拼接trigger会导致...原创 2021-10-19 17:04:36 · 1527 阅读 · 0 评论 -
论文笔记:PPT: Pre-trained Prompt Tuning for Few-shot Learning
论文链接:https://arxiv.org/abs/2109.04332代码开源:暂无1. 介绍两种主流的微调(FT)方法:面向任务的微调(传统微调)和面向提示的微调,如上图b、c所示。两种方法都需要微调整个模型的参数,但随着模型规模的快速增长,为每个下游任务微调一个完整的大型模型变得越来越昂贵。为此,谷歌提出 prompt tuning (PT) 概念,如上图d所示。具体来说,PT 使用由连续嵌入组成的软提示(soft prompt)而不是...原创 2021-10-18 21:10:35 · 3848 阅读 · 1 评论 -
论文笔记:GPT Understands, Too
1. 介绍原创 2021-10-13 22:50:29 · 1154 阅读 · 1 评论 -
论文笔记:Prefix-Tuning: Optimizing Continuous Prompts for Generation
1. 介绍在某些情况下,GPT-3可以在没有任何特定任务调整的情况下部署。用户只需预先准备一个自然语言任务指令(例如摘要任务的指示为:TL;DR)和一些例子拼接到输入,然后就可以从LM生成输出。这种方法被称为情境学习(in-context learning)或提示(prompting)。受到提示的启发,这篇论文提出了Prefix-tuning——一个自然语言生成 (NLG) 任务微调的轻量级替代方案。如下图所示,Fine-tuning更新transformer...原创 2021-10-13 18:12:40 · 1884 阅读 · 4 评论 -
论文笔记:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
1. 介绍论文提出了Pattern-Exploiting Training (PET),将小样本场景下的监督学习和提供任务描述相结合,把具体任务转换成了完形填空任务。具体框架如下:(1)为输入示例创建多个patterns,以将输入示例转换为完形填空题;对不同pattern的输入,分别使用预训练模型进行微调。(2)将上述得到的所有模型进行融合,对未标注数据进行标注。(3)在得到的软标签数据集上训练分类器。...原创 2021-10-11 22:23:29 · 2551 阅读 · 1 评论 -
论文笔记:Making Pre-trained Language Models Better Few-shot Learners
1.动机GPT-3 仅仅通过 一个自然语言提示(prompt)和 少量的任务示例就可以作出正确的预测,在Zero-shot、One-shot和Few-shot的场景下展现出了优秀的性能。通常情况下BERT这类微调模型总是需要一些样例来更新模型的参数从而让模型更加适应当前的任务,但是GPT-3可以通过不使用一条样例的Zero-shot、仅使用一条样例的One-shot和使用少量样例的Few-shot来完成推理任务。下面是对比微调模型和GPT-3三种不同的样本推理形式图:但是拥有1750亿参数的GPT-.原创 2021-10-08 22:11:31 · 2257 阅读 · 4 评论 -
GBDT与XGBoost
gbdt、xgb、lgb、cat面经整理XGBoost超详细推导XGBoost与GDBT的区别、手推XGB二阶导xgboost是用二阶泰勒展开的优势在哪?原创 2021-07-05 11:01:05 · 50 阅读 · 0 评论 -
标准化和归一化的区别和联系
1.标准化和归一化,请勿混为一谈,透彻理解数据变换原创 2021-06-13 15:29:39 · 1337 阅读 · 0 评论 -
Transformer:Attention Is All You Need
整体框架:编码器译码器结构,编码器部分由6个encoder堆叠而成,译码器部分由6个decoder堆叠而成。每个encoder结构都是相同的(但是它们的参数不共享),由多头自注意力层以及全连接层构成。decoder结构与encoder类似,只是比后者多出了一个encoder-decoder attention层,用于获取编码器部分输出的全局(全句)信息。编码器之前:Input Embedding: 将输入的tokens初始化为维度固定(transformer设置dim=512)的词向量。Posit原创 2020-12-14 21:08:23 · 208 阅读 · 0 评论 -
2020/12/13-2020/12/20 本周总结(LSA、NNLM、RNN、word2vec、GPT、GELU)
LSA潜在语义分析:https://blog.csdn.net/roger__wong/article/details/41175967https://blog.csdn.net/fkyyly/article/details/84665361https://www.jianshu.com/p/9fe0a7004560https://www.cnblogs.com/LittleHann/p/7200618.htmlNNLM(N-gram neural model):https://www.cnbl原创 2020-12-13 21:13:30 · 734 阅读 · 0 评论 -
2020/12/7-2020/12/12 本周总结(glove、n-gram、elmo、textcnn、stacking)
glove:GloVe-Global Vectors for Word Representation.pdfelmo:https://www.nowcoder.com/discuss/260001?type=2https://blog.csdn.net/qq_36330643/article/details/80143960n-gram:https://zhuanlan.zhihu.com/p/32829048textcnn:https://www.cnblogs.com/bymo/p/96原创 2020-12-07 22:55:16 · 296 阅读 · 0 评论