NLP
BBlue-Sky
这个作者很懒,什么都没留下…
展开
-
BERT压缩方法汇总分享
模型压缩减少了训练好的神经网络中冗余的部分。模型压缩对于像BERT这类复杂模型来说特别有用,因为BERT,特别是BERT-Large需要消耗大量GPU显存,且根本不适用于内存受限的智能手机。当然,提高内存和推理速度也可以大规模节省成本。在这篇文章中,整理列一些压缩BERT的一些论文,分享给大家。Bert压缩常用方法裁剪-训练后移除网络中不必要的部分。这包括weight裁剪、attenti...原创 2019-12-03 10:31:48 · 474 阅读 · 0 评论 -
ALBERT刷新三大NLP基准
前言RoBERTa没霸榜几天,这不Google爸爸就又放大招,这次的新模型不再是简单的的升级,而是采用了全新的参数共享机制,反观其他升级版BERT模型,基本都是添加了更多的预训练任务,增大数据量等轻微的改动。这次ALBERT的改进,不仅提升了模型的整体效果再一次拿下来各项榜单的榜首,而且参数量相比BERT来说少了很多。对于预训练模型来说,提升模型的大小是能对下游任务的效果有一定提升,然而如果进...原创 2019-12-02 09:57:31 · 496 阅读 · 0 评论 -
BERT精髓详解
彻底搞懂BERT(NLP 词向量训练模型巅峰之作)自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是写的不全面半懂不懂,重复内容占绝大多数。一句话概括,B...原创 2019-11-10 10:52:42 · 655 阅读 · 0 评论 -
NLP之神经网络语言模型之超级无敌最佳资料
语言模型Attention Is All You Need(Transformer)原理小结ELMo解析OpenAI GPT解析BERT解析https://www.cnblogs.com/huangyc/p/9861453.html从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史https://zhuanlan.zhihu.com/p/4927169...原创 2019-01-01 11:40:32 · 843 阅读 · 0 评论