- 博客(4)
- 收藏
- 关注
原创 【论文解析】从头开始打造Transformer
在谷歌大作Attention is all you need中提出了一种基于seq2seq架构的self-attention特征抽取机制,兼具CNN的并行化优点和RNN的长距离依赖特点,成为后续以MLM为主要任务的Bert、Roberta、albert预训练模型(利用Transformer中的Encode block)以及以AR-ML为主要任务GPT系列模型(利用Transformer中的Decode block)的主要模块,并在各类任务上取得了前所未有的成功。本博客在Transformer浅析一文中已经
2020-09-19 17:27:56 614
原创 【NLP工具】和文本处理相关的Linux命令小结
1. cat/head/tail显示文件开头或结尾的若干行cat -n 5 1.txt # 显示前5行cat -n -5 1.txt # 显示非前5行的其它行head -n 5 1.txt # 显示前5行tail -n 5 1.txt # 显示末尾5行2. grep用于文本内容查找,可在一个或多个文件中搜索并返回符合指定字符串模板的行。grep的命令行格式为grep [选项] pattern file,其中pattern即是字符串模板(支持正则表达式),file是路径或
2020-09-19 13:18:11 445
原创 [Pytorch] spatial dropout的实现
dropout是神经网络中一种常用的正则化技术,其通过随机失活神经元元素,降低单元之间的相互依赖关系,从而降低过拟合的风险。实验表明,在Embedding层和CNN层后直接使用常规的dropout策略,效果并不显著,其原因可能:完全随机的dropout的无序性有损于神经元间的空间关联性,从而降低其捕捉特征的能力。因此学者们提出了一种在某些轴上完全dropout的策略,即spatial dropout。以Embedding层(张量维度为batch*timesteps*embedding)后的dropout为
2020-09-13 14:04:52 3013
原创 【NLP工具】Vim常用命令小结
Vim是解决文本快速处理(尤其是服务器端)的神器,本文简单总结下常用的命令。0. 配置文件1. 基本概念和功能1.1 模式1.2 界面设置:set number 显示各行行号, set nonumber取消该功能:set list 显示制表符和行末, set nolist取消该功能:set fileencoding 查看当前文件编码:e ++enc=gb18003 强制采用某种编码重新打开本文档(临时的)2. 光标移动2.1 行内移动-> 右箭头,向右逐字符移动
2020-09-06 13:07:59 187
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人