深度学习&神经网络
文章平均质量分 67
深度学习相关
X. Zhou
这个作者很懒,什么都没留下…
展开
-
基于docker的python faster-rcnn caffe环境搭建+提取目标特征实验
文章目录1. 环境配置前言2. 下载caffe镜像3. 下载bottom-up-attention代码以及编译起初是为了使用faster-rcnn的目标提取功能提取图片中的目标特征,供后续模型学习,有一个比较好的实现bottom up attention,其为py-faster-rcnn在 Visual Genome 数据集预训练的模型,官方py-faster-rcnn在COCO数据集预训练下仅识别80个class,bottom up attention可识别1600个object class以及400个原创 2021-01-19 20:41:49 · 826 阅读 · 2 评论 -
一些可能会用到的深度学习技巧函数(持续更新)
目录部分加载参数部分加载参数def smart_partial_load_model_state_dict(model, state_dict): # 有时候加载的.model模型包含了一些面向下游的全连接层参数我们用不到,有时候.py架构文件中有些需要加载的参数.model模型文件里又没有,解决这种不匹配问题 parsed_state_dict = {} non_match_keys = [] pretrained_keys = [] for k, v in s原创 2021-01-12 17:17:56 · 240 阅读 · 1 评论 -
RNN、LSTM介绍以及梯度消失问题讲解
写在最前面,感谢这两篇文章,基本上的框架是从这两篇文章中得到的:https://zhuanlan.zhihu.com/p/28687529https://zhuanlan.zhihu.com/p/28749444这部分是我给组内的同学做的一个分享PPT,在这里记录一下。...原创 2019-09-28 19:40:00 · 121 阅读 · 0 评论 -
使用BERT模型生成句子序列向量
之前我写过一篇文章,利用bert来生成token级向量(对于中文语料来说就是字级别向量),参考我的文章:《使用BERT模型生成token级向量》。但是这样做有一个致命的缺点就是字符序列长度最长为512(包含[cls]和[sep])。其实对于大多数语料来说已经够了,但是对于有些语料库中样本的字符序列长度都比较长的情况,这就有些不够用了,比如我做一个法院文书领域预测任务,里面的事实部分许多都...原创 2019-08-28 12:22:00 · 1810 阅读 · 1 评论 -
使用BERT模型生成token级向量
本文默认读者有一定的Transformer基础,如果没有,请先稍作学习Transormer以及BERT。相信网上有很多方法可以生成BERT向量,最有代表性的一个就是bert as service,用几行代码就可以生成向量,但是这样生成的是句向量,也就是说,正确的做法是输入一句句子:我是一个中国人,我热爱着中国的每一个城市。输出的是这句句子的向量,一个768维的向量(google预训...原创 2019-08-23 00:53:00 · 1878 阅读 · 0 评论 -
tensorflow与神经网络中遇到的问题与解决方法【持续更新】
1、如何在全连接层拼接特征?有一种方法是有两个input,一个input通过网络最终达到全连接层,另一个input直接接一个全连接网络,神经元数是特征数,这两个可以进行一个concat。 当然了也可以直接输入特征concat到全连接层,但是据说前者效果要好一点。2、word2vec词向量如何在网络中更新?在我的一个模型中(网络层次较浅),我用word2vec词向量的效果比之用随机...原创 2019-07-23 23:28:00 · 218 阅读 · 0 评论 -
使用BERT预训练模型+微调进行文本分类
本文记录使用BERT预训练模型,修改最顶层softmax层,微调几个epoch,进行文本分类任务。BERT源码首先BERT源码来自谷歌官方tensorflow版:https://github.com/google-research/bert注意,这是tensorflow 1.x 版本的。BERT预训练模型预训练模型采用哈工大讯飞联合实验室推出的WWM(Whole Word Ma...原创 2019-08-20 17:15:00 · 3408 阅读 · 3 评论 -
gensim中word2vec和其他一些向量的使用
直接上代码吧,word2vec# testfrom gensim.models.word2vec import Word2Vectxt_file = open('data.txt')sentences = []line = txt_file.readline()while line: sentence = line.split(' ') sentences....原创 2019-07-01 17:40:00 · 112 阅读 · 0 评论 -
Transformer解析与tensorflow代码解读
本文是针对谷歌Transformer模型的解读,根据我自己的理解顺序记录的。另外,针对Kyubyong实现的tensorflow代码进行解读,代码地址https://github.com/Kyubyong/transformer这里不会详细描述Transformer的实现机理,如果有不了解Transformer的可以先阅读文章《Attention is all you need》,以...原创 2019-06-30 15:55:00 · 1363 阅读 · 1 评论 -
短文对话的神经反应机 -- Neural Responding Machine for Short-Text Conversation学习笔记
最近学习了一篇ACL会议上的文章,讲的是做一个短文对话的神经反映机, 原文: 会议:ACL(2015) 文章条目: Lifeng Shang, Zhengdong Lu, Hang Li: Neural Responding Machine for Short-Text Conversation. 1577-1586 写下学习笔记: 拓展:Attenti...原创 2017-12-06 17:01:00 · 212 阅读 · 0 评论 -
卷积神经网络用语句子分类---Convolutional Neural Networks for Sentence Classification 学习笔记...
读了一篇文章,用到卷积神经网络的方法来进行文本分类,故写下一点自己的学习笔记: 本文在事先进行单词向量的学习的基础上,利用卷积神经网络(CNN)进行句子分类,然后通过微调学习任务特定的向量,提高性能。 在从无监督神经语言模型中获得单词向量(Tomas Mikolov等人做过相关工作,即谷歌的word2vector完成,将原始的1/V模型变化为分布式低维表示)后利用一层卷积层的...原创 2017-12-06 16:53:00 · 114 阅读 · 0 评论