![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
微知girl
我是NLP相关方向研究生,小白一枚,梦想自己有一天能混成业界大牛,文章或代码有任何错误欢迎指出,不胜感激~ 如果觉得对您有用请关注点赞,(#^.^#) 希望大家能一起探讨相关方面问题,互相学习,互相进步,(●'◡'●)~~
展开
-
深度学习(一)—— tips
整理一些之前的笔记,有的不一定对,也希望大家看到有问题的地方多多指出,非常感谢~~1.全连接层:神经元个数增加,模型复杂度提升,全连接层数加深,模型非线性表达能力提高。2.batchsize在机器翻译中,用更大的batch size配合更大学习率能提升模型优化速率和模型性能参考自:https://cloud.tencent.com/developer/news/4608553.RoBERTa和BERT对比整体效果 RoBERTa>XLNET>BERT参...原创 2021-03-04 15:31:37 · 200 阅读 · 1 评论 -
GRU和LSTM区别
GRU和LSTM的区别在于:①GRU通过更新门来控制上一时刻的信息传递和当前时刻计算的隐层信息传递。GRU中由于是一个参数进行控制,因而可以选择完全记住上一时刻而不需要当前计算的隐层值,或者完全选择当前计算的隐层值而忽略上一时刻的所有信息,最后一种情况就是无论是上一时刻的信息还是当前计算的隐层值都选择传递到当前时刻隐层值,只是选择的比重不同。而LSTM是由两个参数(遗忘门和输入门)来控制更新的,他们之间并不想GRU中一样只是由一个参数控制,因而在比重选择方面跟GRU有着很大的区别,例如它可以既不选择上一原创 2021-03-04 14:15:07 · 9850 阅读 · 1 评论 -
GPU/CPU 选择
有时候我们需要测试单cpu和GPU使用上效率的差别,如何选择使用CPU还是GPU呢?self.graph = tf.Graph()self.graph.as_default()if use_gpu: session_conf = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False) session_conf.gpu_options.allow_growth = Trueelse: ..原创 2021-02-24 11:11:38 · 250 阅读 · 0 评论 -
batchsize的设置
现在很多算法都用到了batch,这里简单说下batchsize如何设置先来介绍下epoch、iteration、batchsize三者区别:batchsize:批大小,在深度学习中,一般采用SGD(随机梯度下降)训练,即每次训练在训练集中取batchsize个样本训练;iteration:1个iteration等于使用batchsize个样本训练一次epoch:1个epoch等于使用训练集中的全部样本训练一次为什么要设batchsize?1.当数据量足够大的时候可以适当的...原创 2021-02-09 18:24:34 · 4410 阅读 · 1 评论 -
tf.stop_gradient
详细可以参见链接:关于tf.stop_gradient的使用及理解 关于stop_gradient有时候我们其实不希望某些参数进行反向传播,这时候可以用这个函数,引入stop_gradient来对从loss到target net的反传进行截断。目的主要是在计算loss的时候,只对一部分进行权重更新...原创 2021-02-08 13:56:47 · 2058 阅读 · 0 评论 -
python 查看free GPU信息
粘的别人代码,还没测试有问题请指出,谢谢!def _get_free_gpu_id(free_size=0.7): free_command = "nvidia-smi -q -d Memory |grep -A4 GPU|grep Free" all_command = "nvidia-smi -q -d Memory |grep -A4 GPU|grep Total" free_result = subprocess.getoutput(free_command.原创 2021-02-04 12:12:35 · 283 阅读 · 0 评论 -
GPU使用问题总结
先记录一些已经遇到的问题,后续会持续补充1.服务器上,命令窗gpustat -i,实时查看动态,如果显卡占用一百多,而且程序跑的很慢,要看下是不是程序没有正确使用GPU之前遇到过这种情况,运行代码输出框会显示,无法正常使用GPU,或者说当前使用CPU有一次的问题是这个报错,ImportError: libcudnn.so.5: cannot open shared object file: No such file or directory这个问题原因是cudnn安装有问题,查看...原创 2021-02-02 17:40:00 · 770 阅读 · 2 评论 -
BERT_MRC
一、简介论文: 20年ACLA Unified MRC Framework for Named Entity Recognition代码链接:https://github.com/ShannonAI/mrc-for-flat-nested-ner二、方法介绍2.1解决问题解决嵌套型NER的问题,例子如下:有地方介绍,这种方法对于小样本效果会更好2.2原理论文引入了query先验知识,进行ner预测。 比如对于LOC类别,我们构造这样的query:找出...原创 2021-01-28 14:44:12 · 1613 阅读 · 0 评论 -
tensorflow
Tensotflow1.0入门(八)-tensorflow源代码目录结构谢小小XH的TensorFlow专题https://www.cnblogs.com/wuzhitj/p/6648585.htmlgoogletensorflow教程TensorFlow学习(十三):构造LSTM超长简明教程解决tensorflow会话结束后,GPU资源不释放Tensorflow一些常用基本概念与函数(二)...原创 2021-01-12 14:35:08 · 82 阅读 · 0 评论 -
LSTM+CRF中CRF详解
LSTM+CRF这里CRF的使用和常规的CRF是有所不同的以tensorflow为例,训练采用tf.contrib.crf.crf_log_likelihood得到转移矩阵,测试采用tf.contrib.crf.viterbi_decode获取最大标签,没有用到特征模板。参考tensorflow笔记3:CRF函数:tf.contrib.crf.crf_log_likelihood()相关讨论及其他链接参见下面(有时间再整理):如何理解LSTM后接CRF?LSTM+CRF详解一文理解...原创 2021-01-06 13:09:34 · 1044 阅读 · 0 评论 -
梯度消失和梯度爆炸
梯度消失和梯度爆炸,简单来说,就是因为激活函数sigmoid导致的,输入值过大或过小导致sigmoid函数趋于0和1,对应的求导趋近于0,而且sigmoid的导数在(0,1/4)之间,这就导致如果初始化W为0-1之间的比较小的值,通过过多的层数之后,梯度下降的时候,慢慢就会出现梯度消失。如果W初始化为较大的值,通过多层之后,梯度下降会导致梯度越来越大,产生爆炸。RNN梯度消失和梯度爆炸和这个也比较类似,不同的是RNN是时序模型,输入文本过长会有这个原因。详见这里:RNN梯度消失和爆炸的原因当然这个.原创 2020-12-30 12:12:41 · 709 阅读 · 2 评论 -
深度学习之dropout
本来想写一篇dropout的文章,有人写的很好了,我就直接借鉴了先上链接:https://blog.csdn.net/program_developer/article/details/80737724但是文章中有一个地方说的有点混乱,测试集缩放概率问题,重新理一下:dropout,防止过拟合,还可以提高训练速度。加入dropout的概率为p,就是神经元以p的概率失活,相当于比如p设定为0.4,那100个节点会有40个节点失活,不参与训练。简单说一下逻辑:1.定义dropou..原创 2020-12-28 14:52:31 · 1640 阅读 · 0 评论 -
BERT(三)——BERT 改进
先都列出来,有时间再详细整理BERT-BaseBERT-LargeBERT-wwmSpanBertSpanBert:对 Bert 预训练的一次深度探索DistillBERTXLNET飞跃芝麻街:XLNet 详解①AR AE方式结合,通过随机取一句话排列的一种,然后将末尾一定量的词给“遮掩”(和 BERT 里的直接替换 “[MASK]” 有些不同)掉,最后用 AR 的方式来按照这种排列方式依此预测被“遮掩”掉的词。②在 BERT 这样的位置信息+内容信.原创 2020-12-25 22:28:03 · 984 阅读 · 0 评论 -
BERT(二)——BERT 缺陷
BERT有什么局限性?从XLNet论文中,提到了BERT的两个缺点,分别如下:BERT在第一个预训练阶段,假设句子中多个单词被Mask掉,这些被Mask掉的单词之间没有任何关系,是条件独立的,然而有时候这些单词之间是有关系的,比如”New York is a city”,假设我们Mask住”New”和”York”两个词,那么给定”is a city”的条件下”New”和”York”并不独立,因为”New York”是一个实体,看到”New”则后面出现”York”的概率要比看到”Old”后面出现”Yo原创 2020-12-25 18:52:25 · 8912 阅读 · 0 评论 -
深度解读BN、LN、WN、CN
一、 前言最近有人问我BN和LN的区别,我开始有点懵,这两年名词儿太多,不知是啥,一搜,BatchNormalization和LayerNormalization,突然就明白了一些,但是仔细一想,这两个有什么区别什么联系,具体怎么用,我真的知道吗?虽然有的代码里也涉及到,但是从来没有细究过。记得之前吴恩达的网易公开课也有介绍到, 例子大概是这样的,记不详细了,大概是说,样本点的分布如果是椭圆或者其它不规则形状,可能导致梯度下降的时候每个维度上的梯度下降速度不一样,且容易在较长的梯度...原创 2020-12-03 17:13:05 · 7287 阅读 · 0 评论 -
时序模型(一)—— TCN 时间卷积网络
https://blog.csdn.net/qq_27586341/article/details/90751794原创 2020-11-27 13:55:00 · 14442 阅读 · 0 评论 -
语义相似度匹配(二)—— ESIM模型
语义相似度匹配(一)—— DSSM模型一、概述论文来源:TACL 2017论文链接:Enhanced LSTM for Natural Language Inference参考文献:短文本匹配的利器-ESIMhttps://zhuanlan.zhihu.com/p/47580077https://blog.csdn.net/qq_36733823/article/details/101907000 (高校计算机大赛附代码)https://blog.csdn.n...原创 2020-11-26 19:18:26 · 2777 阅读 · 0 评论 -
CV相关算法记录
FCN的学习及理解(Fully Convolutional Networks for Semantic Segmentation)https://blog.csdn.net/qq_36269513/article/details/80420363https://blog.csdn.net/qq_37374643/article/details/88606351 SITF原理https://blog.csdn.net/weixin_40955254/article/details/82315224 V原创 2020-11-25 14:57:34 · 172 阅读 · 0 评论 -
语义相似度匹配(一)—— DSSM模型
一、简介论文:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data微软13年提出的计算文本相似度的深度学习模型,核心思想是将query和doc映射到到共同维度的语义空间中,通过最大化query和doc语义向量之间的余弦相似度,从而训练得到隐含语义模型,达到检索的目的。DSSM有很广泛的应用,比如:搜索引擎检索,广告相关性,问答系统,机器翻译等。网络框架如下:二、 原理对输入文本的原创 2020-11-25 14:53:13 · 3447 阅读 · 0 评论 -
UniLM解读
UniLM是一种语言模型,类似BERT,但是比BERT优的点在哪里,它不仅能很好处理NLU的问题,也能很好处理NLG的问题,可以解释为一种既能阅读又能自动生成的预训练模型。一、概述UniLM,(统一预训练语言模型),对应论文:Unified Language Model Pre-training for Natural Language Understanding and GenerationUniLM 是在微软研究院在BERT的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。使用原创 2020-11-24 12:43:13 · 6111 阅读 · 0 评论 -
BERT(一)—— BERT transformer attention 详解
attentionhttps://zhuanlan.zhihu.com/p/43493999https://zhuanlan.zhihu.com/p/27769667 attention 代码https://www.zhihu.com/question/68482809 attention 原理https://zhuanlan.zhihu.com/p/31547842 √https://zhuanlan.zhihu.com/p/53682800 attention +transform...原创 2020-11-24 12:41:16 · 351 阅读 · 0 评论 -
深度学习——可视化界面(一) tensorboard
tensorboardCUDA_VISIBLE_DEVICES=4 tensorboard --logdir=/model/bert_model4是显卡位置,显卡位置可以跟模型训练的不一致,而且可以在跑完模型之后查看 logdir后面是模型路径,注意模型路径不要加引号命令行直接在shell窗口打这个是loss的趋势图忘了说一点run_config = tf.estimator.RunConfig( model_dir=check...原创 2020-09-17 17:01:18 · 893 阅读 · 0 评论 -
深度学习——概述(一)
Tensorflow一些常用基本概念与函数http://www.cnblogs.com/wuzhitj/p/6648563.htmlhttp://www.cnblogs.com/wuzhitj/p/6648585.htmlhttp://www.cnblogs.com/wuzhitj/p/6648610.htmlhttp://www.cnblogs.com/wuzhitj/p/664...原创 2018-08-09 09:48:38 · 361 阅读 · 0 评论