sliderSun
码龄5年
  • 597,022
    被访问
  • 107
    原创
  • 1,602,180
    排名
  • 302
    粉丝
关注
提问 私信

个人简介:本人知乎ID:sliderSun

  • 加入CSDN时间: 2017-03-17
博客简介:

小岁月太着急

博客描述:
技术博文
查看详细资料
个人成就
  • 获得291次点赞
  • 内容获得195次评论
  • 获得1,361次收藏
  • GitHub 获得180Stars
创作历程
  • 14篇
    2020年
  • 67篇
    2019年
  • 24篇
    2018年
  • 73篇
    2017年
成就勋章
TA的专栏
  • 预训练
    4篇
  • 中文自然语言处理
    16篇
  • Paper
    1篇
  • LeetCode
    8篇
  • 推荐系统
  • 深度学习
  • python
    17篇
  • tornado
    5篇
  • scrapy
    14篇
  • aiml
    1篇
  • 那些事
    3篇
  • twsited
    12篇
  • sqlalchemy
    1篇
  • kombu
    2篇
  • 面试
  • pyspider
    3篇
  • 机器学习
    3篇
  • gevent
    1篇
  • neo4j
    1篇
  • linux
    2篇
  • 深度学习
    51篇
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

LADABERT:混合模型压缩的轻量级自适应BERT

https://zhuanlan.zhihu.com/p/129298567
原创
发布博客 2020.04.12 ·
392 阅读 ·
0 点赞 ·
0 评论

如何看待瘦身成功版BERT——ALBERT?

https://www.zhihu.com/question/347898375/answer/863537122
转载
发布博客 2020.04.08 ·
424 阅读 ·
0 点赞 ·
0 评论

如何评价 BERT 模型?

https://www.zhihu.com/question/298203515/answer/516170825
转载
发布博客 2020.04.08 ·
683 阅读 ·
0 点赞 ·
0 评论

如何评价NLP算法ELECTRA的表现?

https://www.zhihu.com/question/354070608
转载
发布博客 2020.04.08 ·
271 阅读 ·
0 点赞 ·
0 评论

解读FastBERT《a Self-distilling BERT with Adaptive Inference Time》

https://arxiv.org/pdf/2004.02178.pdfThe code is publicly available at https:// github.com/autoliuweijie/FastBERT.(作者目前还未放)FastBERT的推理过程,每个样本执行的层数根据其复杂性而变化。这说明了一个样本自适应机制。以一批输入(批大小= 4)为例,Transfo...
原创
发布博客 2020.04.07 ·
1387 阅读 ·
0 点赞 ·
2 评论

TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding

https://arxiv.org/pdf/2003.07000.pdf
原创
发布博客 2020.04.02 ·
338 阅读 ·
0 点赞 ·
0 评论

Transformer++

我们使用如图[1]所示的编码器-解码器架构来对一个序列进行序列建模,该架构遵循Transformer[15]中提出的架构。我们提出了一种计算注意函数的新方法,同时学习了新的多头和传统的多头。对于给定的H(多个头的总数),我们在H/2 heads中使用自我注意来捕获全局依赖关系,并在H/2 heads中使用基于卷积的...
翻译
发布博客 2020.03.26 ·
657 阅读 ·
0 点赞 ·
1 评论

Compact Multi-Head Self-Attention 低秩因子分解

paper:https://arxiv.org/pdf/1912.00835.pdfProposed Model首先对文档(评论或新闻文章)进行标记,然后通过查找将其转换为嵌入到预先训练好的嵌入矩阵中。每个标记的嵌入通过bi-GRU语句编码器进行编码,以获得该语句中每个单词的上下文注释。LAMA的注意机制通过计算单词级上下文向量对这些单词的隐藏表示的对齐分数,从而获得这些单词上的多个注意分...
原创
发布博客 2020.01.21 ·
397 阅读 ·
0 点赞 ·
0 评论

FGN: Fusion Glyph Network for Chinese Named Entity Recognition

结合中文字形处理NLP任务的并不多推荐一篇:Glyce2.0,中文字形增强BERT表征能力paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdfgithub:https://github.com/AidenHuen/FGN-NERModel在本节中,我们将详细介绍用于NER任务的FGN。如图1所示,FGN可以分为三个...
原创
发布博客 2020.01.19 ·
1088 阅读 ·
0 点赞 ·
0 评论

ALBERT 中文实战之文本相似度

ALBERT是一个比BERT要轻量,效果更好的模型,本篇实践介绍如何用ALBERT计算两个文本的相似度。ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段,显著减少了模型的参数量的同时,基本没有损失模型的性能。笔者在下面的文章中详细介绍了ALBERT的理论,感兴趣的同学可以戳进去了解:《解读ALBERT》。github地址使用孪生ALBERT网络生成句子的嵌入表示:P...
原创
发布博客 2020.01.12 ·
3575 阅读 ·
1 点赞 ·
1 评论

NLP 2019 HightLights

请移步到原文
原创
发布博客 2020.01.12 ·
133 阅读 ·
0 点赞 ·
0 评论

Hugging Face推出了分词器

原文链接:https://medium.com/dair-ai/hugging-face-introduces-tokenizers-d792482db360去年对于自然语言处理(NLP)来说是巨大的。就改进而言,现在可以通过使用优化的库和高性能硬件来更快地实现神经网络。但是,基于深度学习的现代NLP管道中的瓶颈之一是tokenization,尤其是通用性强且独立于框架的实现。为了提供对现...
翻译
发布博客 2020.01.12 ·
1083 阅读 ·
0 点赞 ·
0 评论

显式稀疏Transformer

论文地址:EXPLICIT SPARSE TRANSFORMER: CONCENTRATED ATTENTION THROUGH EXPLICIT SELECTION引言图1:模型中自我注意的说明。橙色条表示我们提出的模型的注意分值,蓝色条表示香草变压器的注意分值。橙色线表示目标单词“tim”与序列中选择的top-k位置之间的注意。在vanilla Transformer的注意力...
原创
发布博客 2020.01.12 ·
1236 阅读 ·
0 点赞 ·
0 评论

Stacked DeBERT

论文地址:Stacked DeBERT: All Attention in Incomplete Data for Text Classification项目地址:https://github.com/gcunhase/StackedDeBERT我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案,用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示,该模型的结构为嵌...
原创
发布博客 2020.01.03 ·
332 阅读 ·
0 点赞 ·
0 评论

BERT用于序列到序列的多标签文本分类

BERT FOR SEQUENCE-TO-SEQUENCE MULTI-LABEL TEXT CLASSIFICATION引言我们的主要贡献如下:1. 我们将BERT的结果作为编码器呈现在MLTC数据集的序列到序列框架中,具有或不具有类上的给定层次树结构。2. 介绍并实验验证了一种新的MLTC混合模型。3.我们微调vanilla BERT模型来执行多标签文本分类。据我们所知,这...
原创
发布博客 2019.12.31 ·
2349 阅读 ·
0 点赞 ·
3 评论

Group Transformer:实现轻量级的字符级语言模型

GROUP-TRANSFORMER: TOWARDS A LIGHTWEIGHT CHARACTER-LEVEL LANGUAGE MODELINTRODUCTION本文介绍了一种用于字符级语言建模的轻量级转换器。我们的方法是一种因式分解方法,它使用分组线性操作来分离transformer架构中的标准线性层,并在线性转换之间进行稀疏连接。该模型受到群卷积方法的启发,被称为Group Tra...
原创
发布博客 2019.12.31 ·
650 阅读 ·
0 点赞 ·
0 评论

解读Reformer

论文地址:https://openreview.net/forum?id=rkgNKkHtvB 代码:https://github.com/google/trax/blob/master/trax/models/research/reformer.py介绍Transformer 架构被广泛用于自然语言处理中,并且在许多任务中实现了 sota。为了获得这些结果,研究者不得不开始训练更大的 T...
原创
发布博客 2019.12.31 ·
6074 阅读 ·
5 点赞 ·
2 评论

K-BERT详解

论文地址:https://arxiv.org/abs/1909.07606v1项目地址:https://github.com/autoliuweijie/K-BERT摘要预训练的语言表示模型(如BERT)从大型语料库捕获一般的语言表示,但缺乏领域特定的知识。在阅读领域文本时,专家会利用相关知识进行推理。为了使机器能够实现这一功能,我们提出了一种基于知识图的支持知识的语言表示模型(K...
翻译
发布博客 2019.12.31 ·
7558 阅读 ·
3 点赞 ·
1 评论

利用胶囊网络提高多头注意力

Paper:Improving Multi-Head Attention with Capsule Networks通过将输入胶囊乘以表示部分和整体之间的视点不变关系的学习转换矩阵来计算投票:然后我们计算和更新输出胶囊v,投票,以及它们之间的分配概率c通过特定的路由过程迭代以确保输入发送给一个适当的输出胶囊:最后,将输出胶囊v串联在一起,送入前馈网络(FFN),该网络由两个...
原创
发布博客 2019.12.18 ·
905 阅读 ·
1 点赞 ·
2 评论

Bootstrapping NLU Models with Multi-task Learning

paper:Bootstrapping NLU Models with Multi-task Learning图1:端到端联合NLU模型的概述。合成CNN用于从字符中合成词嵌入;公路网不仅促进了信息的流动,而且使输入的非线性变换成为可能;堆叠CNN中的多个卷积层在生成上下文向量时增加了接受域;域意图和意图槽链接使信息从上游任务流到下游任务,并为下游任务创建向上游任务提供反馈的方法。...
原创
发布博客 2019.12.17 ·
158 阅读 ·
0 点赞 ·
0 评论
加载更多