论文解读
文章平均质量分 94
记录日常阅读过的文献
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
-
LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio
Qwen2-Audio是一个大规模音频-语言模型,可以接受各种音频信号输入,并根据语音指令执行音频分析或直接生成文本响应。与之前的模型(Qwen-Audio)相比,Qwen2-Audio在以下几个方面做了改进:简化预训练过程: 使用自然语言提示替代复杂的层级标签,扩大了训练数据规模。增强指令遵循能力: 通过监督微调和直接偏好优化(DPO),使模型输出更符合人类偏好。实现两种音频交互模式: 语音聊天模式和音频分析模式,无需系统提示即可智能切换。原创 2024-09-08 10:54:07 · 1067 阅读 · 0 评论 -
腾讯版GPT-4o平替方案:VITA
VITA是腾讯优图实验室在交互式全模态大语言模型方面的一次新探索。近年来,大语言模型(LLM)和多模态大语言模型(MLLM)的快速发展给人工智能领域带来了巨大变革。特别是GPT-4等模型展现出的强大多模态能力和自然交互体验,为MLLM的实际应用奠定了基础。然而,开源社区在这一领域还存在明显的差距。为了推动开源MLLM的发展,来自腾讯优图实验室等机构的研究人员提出了VITA模型,这是首个开源的能够同时处理视频、图像、文本和音频的多模态大语言模型,并且具备先进的多模态交互体验。原创 2024-09-01 14:11:31 · 1295 阅读 · 1 评论 -
Google最新开源大语言模型:Gemma 2介绍及其微调(上篇)
2024年6月27日,Google DeepMind发布了Gemma 2,这是Gemma系列轻量级开放语言模型的最新成员。Gemma 2在架构和训练方法上都有重大创新,在多项基准测试中取得了显著进步,甚至可以与参数规模大2-3倍的模型相媲美。本文将对Gemma 2技术报告的主要内容进行解读,包括模型架构、预训练和后训练方法、性能评估等方面。原创 2024-07-21 16:39:13 · 1781 阅读 · 0 评论 -
【论文解读系列】NER方向:W2NER (AAAI 2022)
文章基于词-词关系分类,提出一个统一的实体框架 W2NER,关系包括 NNW 和 THW。框架在面对各种不同的 NER 时非常有效。原创 2022-10-24 23:19:36 · 3033 阅读 · 0 评论 -
【论文解读系列】NER方向:MarkBERT(2022)
MarkBERT 也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将**词的边界**信息融入模型,具体操作是将词之间插入边界marker。出现边界marker意味着前一个字符是词的尾部字符,而紧接着的字符是另一个词的起始字符。如此可以统一处理所有词,不存在词的OOV问题。原创 2022-09-27 15:13:04 · 1279 阅读 · 0 评论 -
【论文解读系列】NER方向:FGN (2020)
汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将**字形信息**融入网络结构的中文NER方法。除了用一个新型CNN对字形信息进行编码外,该方法可以通过**融合机制**提取**字符分布式表示**和**字形表示**之间的交互信息。FGN主要有2个创新点: (1)FGN 提出一种新型的CNN结构,即**CGS-CNN**,以**获取字形信息**和**相邻图之间的交互信息**。(2)提出一种**滑动窗口和注意机制**来融合每个**字符的BERT表示**和**字形表示**。原创 2022-09-16 18:42:24 · 817 阅读 · 0 评论 -
【论文解读系列】NER方向:FLAT (ACL 2020)
中文NER通常以字符为单位进行序列标注建模,即一般使用character-based模型。这主要是由于中文分词存在误差,会带来错误传导,所以一般character-based的中文NER模型通常要优于 基于word-based(经过分词)的序列标注建模方法。而在character-based模型中引入词汇信息可以显著提升中文NER效果已经得到多方验证。FLAT也是一种将词汇信息融入character-based模型的解决方案。原创 2022-09-10 11:25:20 · 773 阅读 · 0 评论 -
【论文解读系列】NER方向:SoftLexicon(ACL 2020)
SoftLexicon是一种简单而有效的**将词汇信息纳入字符表示**的方法。这种方法避免设计复杂的序列建模结构,并且对于**任何NER模型**,它**只需要细微地调整字符表示层**来引入词典信息。在4个中文NER基准数据集上的实验结果表明,该方法的推理速度比现有SOTA方法**快6.15倍**,性能更好原创 2022-09-07 11:44:40 · 2935 阅读 · 0 评论 -
【论文解读系列】NER方向:LatticeLSTM (ACL2018)
LatticeLSTM 出自于 ACL2018中的Chinese NER Using Lattice LSTM。LSTM-CRF模型在英文命名实体识别任务中具有显著效果,在中文NER任务中,基于字符的NER模型也明显优于基于词。原创 2022-09-02 10:52:19 · 900 阅读 · 0 评论 -
ICLR 2021 | Autoregressive Entity Retrieval
基本信息标题:Autoregressive Entity Retrieval机构:阿姆斯特丹大学、Facebook AI Research、巴黎高师、巴黎文理研究大学、法国国家信息与自动化研究所、英国伦敦大学学院作者:Nicola De Cao, Gautier Izacard, Sebastian Riedel, Fabio Petroni论文代码:https://github.com/facebookresearch/GENRE论文地址:https://arxiv.org/abs/2原创 2021-05-16 00:01:11 · 2368 阅读 · 2 评论 -
ICLR 2021 | 微软DeBERTa:SuperGLUE上的新王者
基本信息题目:DeBERTa: Decoding-enhanced BERT with Disentangled Attention机构:微软研究院作者:Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen论文地址:https://arxiv.org/abs/2006.03654论文代码:https://github.com/microsoft/DeBERTa简介Q: 文章要解决的问题是什么?A: 改善 BERT 和 RoBER原创 2021-01-15 23:04:44 · 1101 阅读 · 0 评论 -
ACL2020 | SongNet(格式可控的文本生成)
背景题目:Rigid Formats Controlled Text Generation机构:Tencent AI Lab作者:Piji Li、Haisong Zhang、Xiaojiang Liu、Shuming Shi论文地址:https://arxiv.org/abs/2004.08022收录会议:ACL 2020论文代码:https://github.com/lipiji/SongNet摘要基于神经网络的文本生成在各种任务中取得了巨大的进展。这些文本生成任务如对话生成、原创 2020-12-31 20:19:25 · 1356 阅读 · 0 评论 -
EMNLP 2020 | Facebook稠密向量召回方案
0. 背景机构:Facebook AI、华盛顿大学、普林斯顿大学作者:Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih论文地址:https://arxiv.org/abs/2004.04906收录会议:EMNLP 2020论文代码:https://github.com/facebookresearch/DPR1. 摘要原创 2020-12-31 19:56:18 · 948 阅读 · 1 评论 -
NeurIPS 2020 | MiniLM:通用预训练模型压缩方法
摘要这里尝试通过一问一答的方式来简介MiniLM。Q: 这篇文章要解决什么问题?A:预训练模型的低效问题。预训练模型过大的话,有2个弊端:(1)推理速度慢(2)内存空间占用大。Q: 文章如何解决上述问题?A: 提出了一种通用的面向Transformer-based预训练模型压缩方法:MiniLM。MiniLM有3个核心点:(1)蒸馏teacher模型最后一层Transformer的自注意力模块(2)在自注意模块中引入值之间的点积(3)引入助教模型辅助模型蒸馏Q:文章方案最终效果如何?A:原创 2020-11-17 22:41:43 · 2122 阅读 · 0 评论 -
EMNLP2020 | 模型压缩系列:BERT-of-Theseus(一种基于模块替换的模型压缩方法)
当古希腊神话遇到BERT,于是有了BERT-of-Theseus背景论文标题:BERT-of-Theseus: Compressing BERT by Progressive Module Replacing论文作者:Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, Ming Zhou机构:武汉大学、北京航空航天大学、微软亚洲研究院论文地址:https://arxiv.org/abs/2002.02925收录会议:EMNLP 2020论文代码原创 2020-10-24 10:05:43 · 971 阅读 · 1 评论 -
NeurIPS 2020|RAG:为知识密集型任务而生
NeurIPS 2020|RAG:检索系统助攻生成器背景今天主要介绍一项Facebook AI Research发表于NeurIPS 2020(12月才召开,大家耐心等待哈) 的成果:RAG。虽然NLP在过去几年中突飞猛进,从为特定任务设计定制化的框架,再到如今各种基于海里语料无监督预训练得到强大的通用模型通过微调即可应对各种不同NLP任务。这些模型充满潜力,但它们也有三个主要缺点:(1)不能轻易地扩展或修正模型的记忆(2)预测结果的可解释性差(3)偶尔产生“幻觉”(hallucinations原创 2020-10-10 20:01:17 · 1774 阅读 · 0 评论 -
ACL2020论文阅读笔记:BART
背景题目:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension机构:Facebook AI作者:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlem原创 2020-09-26 20:18:51 · 3677 阅读 · 1 评论 -
“芝麻街”喜添新成员——Big bird
“芝麻街”喜添新成员——Big bird0. 背景题目:Big Bird: Transformers for Longer Sequences机构:Google Research作者:Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed论文地原创 2020-10-09 22:54:51 · 1479 阅读 · 0 评论 -
ACL2020论文阅读笔记-FastBERT: a Self-distilling BERT with Adaptive Inference Time
0. 背景题目:FastBERT: a Self-distilling BERT with Adaptive Inference Time机构:北大、腾讯、北师大作者:Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Haotang Deng, Qi Ju论文地址:https://arxiv.org/abs/2004.02178收录会议:ACL2020代码:https://github.com/autoliuweijie/FastBERT摘要预训练原创 2020-07-25 14:08:57 · 956 阅读 · 0 评论 -
Google新作synthesizer:Rethinking Self-Attention in Transformer Models
0. 背景机构:Google Research作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng论文地址:https://arxiv.org/abs/2005.007430.1 摘要以当下基于Transformer的各种先进模型来看,使用点积自注意力(dot product self-attention)是至关重要且不可或缺的。但,事实真的如此吗,没有点积自注意力就会不香吗?点积自注意力是否真的不可替代原创 2020-07-19 16:43:30 · 1019 阅读 · 0 评论 -
ICLR2020论文阅读笔记reformer: THE EFFICIENT TRANSFORMER
0. 背景机构:Google Research 、U.C. Berkeley作者:Nikita Kitaev、Łukasz Kaiser、Anselm Levskaya论文地址:https://arxiv.org/abs/2001.04451收录会议:ICLR2020论文代码:https://github.com/google/trax/tree/master/trax/models/reformer0.1 摘要基于Transformer的各种巨型模型在各种自然语言处理任务中常常能够取得最优结原创 2020-05-11 19:46:36 · 1420 阅读 · 1 评论 -
文献阅读笔记electra: pre-training text encoders as discriminators rather than generators
目录0. 背景0.1 摘要1. 介绍2. 方法3. 实验3.1 实验设置3.2 模型拓展3.3 Small版模型3.4 Large版模型3.5 有效性分析4. 总结0. 背景机构:斯坦福、Google Brain作者:Kevin Clark、Minh-Thang Luong、Quoc V. Le论文地址:https://arxiv.org/abs/2003.10555收录会议:ICLR 2020论文代码:https://github.com/google-research/electra0.1原创 2020-05-09 18:54:20 · 1697 阅读 · 1 评论 -
文献阅读笔记:NEZHA(Neural Contextualized Representation for Chinese Language Understanding)
0. 背景机构:华为诺亚方舟实验室作者:Junqiu Wei, Xiaozhe Ren等面向任务:自然语言理解论文地址:https://arxiv.org/abs/1909.00204论文代码:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA0.1 摘要预训练模型在捕捉深度语境表征方面...原创 2019-12-21 17:55:29 · 3443 阅读 · 0 评论 -
文献阅读笔记:Unsupervised Cross-lingual Representation Learning at Scale(XLM-R)
0. 背景机构:Facebook作者:Alexis Conneau、Kartikay Khandelwal获奖:EMNLP 2019 最佳论文面向任务:跨语言理解论文地址:https://arxiv.org/abs/1911.02116论文代码:https://github.com/pytorch/fairseq官方介绍:https://ai.facebook.com/blog/-x...原创 2019-11-22 20:15:16 · 2590 阅读 · 0 评论 -
文献阅读笔记:Phrase-Based & Neural Unsupervised Machine Translation
文章目录0. 背景0.1 摘要1. 介绍2. 无监督机器翻译的共同原则3. 无监督机器翻译模型3.1 无监督 NMT3.2 无监督 PBSMT4. 实验4.1 评测的数据集:4.2 初始化4.3 训练4.4 模型选择4.5 结果4.6 消融研究5. 相关工作6. 总结和未来工作0. 背景机构:Facebook作者:Guillaume Lample, Myle Ott, Alexis Conn...原创 2019-11-14 20:10:46 · 1512 阅读 · 0 评论 -
文献阅读笔记:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)
0. 背景机构:谷歌作者: Colin Raffel发布地方:arxiv面向任务:自然语言理解论文地址:https://arxiv.org/abs/1910.10683论文代码:https://github.com/google-research/text-to-text-transfer-transformer0.1 摘要迁移学习已经在NLP领域大显神威,其有效性源于多元化的方法...原创 2019-11-07 16:33:46 · 6073 阅读 · 1 评论 -
文献阅读笔记:Unsupervised Machine Translation Using Monolingual Corpora Only
文章目录0. 背景0.1 摘要1. 介绍2. 无监督神经机器翻译2.1 神经机器翻译模型2.2 模型概述2.3 降噪自编码2.4 跨域训练2.5 对抗训练3. 训练3.1 迭代训练3.2 无监督模型选择标准4. 实验4.1 数据集4.2 baselines4.3 无监督字典的学习4.4 实验细节4.5 实验结果5. 相关工作6. 总结0. 背景机构:Facebook作者:Guillaume ...原创 2019-10-24 18:02:33 · 2124 阅读 · 3 评论 -
文献阅读笔记:Word Translation Without Parallel Data
0. 背景机构:Facebook作者:Alexis Conneau, Guillaume Lample发布地方:LCLR 2018面向任务:无监督机器翻译论文地址:https://arxiv.org/abs/1710.04087论文代码:https://github.com/facebookresearch/MUSE0.1 摘要已有的先进跨语言词嵌入技术多数严重依赖双语词典或者平行...原创 2019-10-16 18:05:59 · 2486 阅读 · 0 评论 -
DeepFM论文阅读笔记
0-摘要DeepFM融合了因子分解机(FM)的推荐优势和Deep Learing的特征提取优势。在基准数据和商业数据上都表现优越。1- 介绍点击率(CTR)预测是估计用户对某个商业项目进行点击的概率。提升点击人数,从而提升CTR。对于在线广告,提升CTR可以增加企业的收入。总体上来说,排序的策略是CTR*bid。这里的bid是指每次点击产生的收益,点击不同item收益可能不同。但是不管怎样,...原创 2018-10-18 11:56:55 · 1827 阅读 · 0 评论 -
文献阅读:MT-DNN模型
背景机构:微软亚洲研究院 NLP 组与 SDRG(微软雷德蒙德语音对话研究组)作者:Xiaodong Liu、Pengcheng He发布地方:arxiv面向任务:自然语言理解任务(NLU)的学习表示论文地址:https://arxiv.org/abs/1901.11504论文代码(非官方):https://github.com/namisan/mt-dnn更多代码版本参见:http...原创 2019-05-16 18:07:01 · 3216 阅读 · 0 评论 -
文献阅读笔记-MASS: Masked Sequence to Sequence Pre-training for Language Generation
背景题目:MASS: Masked Sequence to Sequence Pre-training for Language Generation机构:微软亚洲研究院作者:Kaitao Song、Xu Tan发布地方:ICML 2019面向任务:自然语言理解任务(NLU)的学习表示论文地址:https://arxiv.org/pdf/1905.02450.pdf最新成果:WMT1...原创 2019-05-18 10:29:40 · 4434 阅读 · 7 评论 -
文献阅读笔记:Cross-lingual Language Model Pretraining
0.背景机构:Facebook作者:Guillaume Lample、 Alexis Conneau发布地方:arxiv面向任务:Language Understanding论文地址:https://arxiv.org/abs/1901.07291论文代码:https://github.com/facebookresearch/XLM0-1 摘要最近的研究已经证明了生成预训练对于英...原创 2019-07-23 18:08:33 · 6230 阅读 · 1 评论 -
文献阅读:(UNILM)Unified Language Model Pre-training for Natural Language Understanding and Generation
0. 背景机构:微软作者:Li Dong、Nan Yang发布地方:arxiv面向任务:Natural Language Understanding and Generation论文地址:https://arxiv.org/abs/1905.03197论文代码:暂未0-1. 摘要本文提出一个能够同时处理自然语言理解和生成任务UNIfied pre-trained Language M...原创 2019-08-28 19:53:54 · 7452 阅读 · 0 评论 -
文献阅读笔记:Deep contextualized word representations(ELMo)
0. 背景机构:Allen 人工智能研究所 & 华盛顿大学作者:Paul G发布地方:arxiv、NAACL 2018面向任务:word representation论文地址:https://arxiv.org/abs/1802.05365论文代码:https://github.com/allenai/bilm-tf。顺便安利该研究所的https://github.com/al...原创 2019-08-31 21:12:04 · 1148 阅读 · 0 评论 -
文献阅读:ERNIE 2.0
0. 背景机构:百度作者:Yu Sun, Shuohuan Wang发布地方:arxiv面向任务:Natural Language Understanding论文地址:https://arxiv.org/abs/1907.12412论文代码:https://github.com/PaddlePaddle/ERNIE/0-1. 摘要预训练语言模型带来NLP领域的巨大飞跃就无需多言了,...原创 2019-09-05 14:19:52 · 4951 阅读 · 1 评论 -
文献阅读笔记:RoBERTa:A Robustly Optimized BERT Pretraining Approach
0. 背景机构:Facebook & 华盛顿大学作者:Yinhan Liu 、Myle Ott发布地方:arxiv论文地址:https://arxiv.org/abs/1907.11692论文代码:https://github.com/pytorch/fairseq1. 介绍RoBERTa 模型是BERT 的改进版(从其名字来看,A Robustly Optimized BE...原创 2019-09-09 16:39:09 · 13833 阅读 · 5 评论 -
文献阅读笔记:Glyce2.0(Glyce: Glyph-vectors for Chinese Character Representations)
0. 背景机构:香侬科技作者:Yuxian Meng*, Wei Wu*发布地方:NeurIPS 2019面向任务:Language Representation论文地址:https://arxiv.org/pdf/1901.10125论文代码:https://github.com/ShannonAI/glyce0.1 摘要对于表意文字(logographic,又称语素文字,在非正...原创 2019-09-12 16:39:17 · 1005 阅读 · 0 评论 -
文献阅读笔记-ALBERT : A lite BERT for self-supervised learning of language representations
0. 背景机构:谷歌作者:发布地方:ICLR 2020面向任务:自然语言理解论文地址:https://openreview.net/pdf?id=H1eA7AEtvS论文代码:暂未0.1 摘要预训练自然语言表征时,增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法在未来会越发困难。进一步增加模型大小将带来以下困难:(1)GPU/TPU...原创 2019-09-29 11:50:43 · 6688 阅读 · 1 评论 -
文献阅读笔记:Unsupervised Question Answering by Cloze Translation
0. 背景机构:Facebook作者:Patrick Lewis发布地方:arXiv面向任务:问题生成论文地址:https://arxiv.org/abs/1906.04980论文代码:https://github.com/facebookresearch/UnsupervisedQA0.1 摘要本文尝试探寻以下2个问题。(1)对于抽取式问答(EQA),训练数据集的质量要求是怎么...原创 2019-10-10 10:09:03 · 3177 阅读 · 4 评论 -
文献阅读笔记-Key-Value Memory Networks for Directly Reading Documents
文献阅读笔记-Key-Value Memory Networks for Directly Reading Documents0-背景1-详情1-1 模型介绍1-2 Key-Value memory的选取2-实验0-背景在问答系统中直接从文本中获取答案要难于从KB(knowledge bases),这是由于文本一般都是非结构化的。虽然KB能提高训练的效果,但是KB存在太多的限制,比如设计的sc...原创 2018-10-12 20:46:53 · 2190 阅读 · 0 评论