深度学习
chenmingwei000
这个作者很懒,什么都没留下…
展开
-
keras 的实现unilm的核心代码讲解
在苏神写的unlim代码,本身由于keras不友好的构件图逻辑判断,所以没办法只能按照原始tensorflow去重新理解一下,为torch的模型蒸馏提供基础。 首先我们假设Input-Segment的数值为:a=tf.constant([[0,0,0,0,1,1,1,1,1,1]])之所以第一个句子为0,原因是下边我们需要计算第二个句子预测每一时刻time_step需要几个单词信息第一行代码为: idxs = K.cumsum(a, axis=1)此行代码得到的结果为:[[..原创 2021-08-23 15:24:08 · 451 阅读 · 0 评论 -
基于中文哪吒NEZHA的FLAT的命名实体识别实现与探讨(一)
哪吒bert的基本理解哪吒是华为公司针对中文的bert预训练模型,首选感谢华为公司提供了这么好的开源项目,通过对哪吒论文的阅读与理解哪吒的重点主要放在三处改进之处,但是凭自己说这三点都是现成的:1、Functional Relative Positional Encoding 相对位置编码;2、Whole Word Masking strategy 全词mask策略,这个和哈工大的差得多,可以看源码;3、Mixed Precision Training and the LAMB Optimizer原创 2020-06-29 22:27:16 · 3266 阅读 · 8 评论 -
Albert 论文相关笔记
albert 的主要改进点在于两点:1、因式分解词汇embedding参数(当然和数学里边的因式分解不一样),这里采用了矩阵映射的方法,把大的词汇矩阵分解成两个小矩阵,把hidden_size与embedding_size进行分割,这个分割不需要增加一些无意义的参数增加,说实话这些好处都没有什么用处,作者在代码里就简单的做了矩阵的映射变换。2、另外一个就是夸层参数共享,这两个改进都在不影响精...原创 2019-12-25 15:55:32 · 393 阅读 · 0 评论 -
Al-bert利用自己训练数据集预训练以及测试LCQMC语义相似度测试(二)
`Al-bert利用自己训练数据集预训练以及测试LCQMC语义相似度测试## 标题(二)上一张讲解了怎么构造预训练的数据,这一章讲解训练过程,一起探讨与bert的区别1.2 run_pretraining.py 的讲解 我们仍然采用debug模式进行 bert_config = modeling.BertConfig.from_json_file(FLAGS.bert_confi...原创 2019-12-19 11:07:16 · 2428 阅读 · 0 评论 -
ctc解释(二)
承接一进行讲解公式上图阐述了labelling为“cat”的前后向算法路径,黑色的表示实际label,白色的表示blank,箭头表示允许的转移,前向算法更新方向与箭头一致,后向算法更新与箭头相反。公式7就是之前的说明,这两种可能也就是公式6要进行说明,为了更进一步说明以上公式的两种情况,结合图图3在公式(6)第一个条件是,如果第s步是blank的...原创 2019-08-22 09:11:12 · 518 阅读 · 0 评论 -
CTCconnectionist temporal classfication: labelling unsegmented sequence data with recurrent(一)
CTC 是对于未分割的时序进行分类的一种经典,并且非常有效的算法,目前针对语音识别,orc都是不可或缺的技术,虽然有很多人解释了ctc,但仍然不懂,经过长时间论文以及阅读大牛们的解释,算是有所收获,借此对论文重新解释,加深印象。 摘要: 现实生活中我们需要从有噪声、未分割的数据中来学习预测labels的任务。例如在语音识别把语音转化为单词或者字符的任务,作者以...原创 2019-07-29 09:30:13 · 582 阅读 · 0 评论 -
kbqa基于复旦大学的实现代码解析完成步骤 (二)
一 已经堆主函数做了部分解释,许多细节是做了一些规则,或者利用了论文立的方法,所以要把代码和论文结合,才能看懂。 在main_qa用到了两个自己写的文件:from KBQA_small_data_version1.kbqa.connectSQLServer import connectSQLfrom KBQA_small_data.kbqa.entity_rec...原创 2019-03-11 11:02:50 · 1079 阅读 · 4 评论 -
斯坦福nlp学习笔记(一)
针对nlp的问题,对起课程进行翻译: cs224n-2017-lecture1 1、人类的语言有哪些特点呢? 一个人类语言就是能够特定的组织来表达其意思的系统: (1)不仅仅是一个环境信号,更多是一个交流信息;(2)用了一种编码方式,并且这种方式,一个小孩都可以能够很快的学习。 所以一种人类语言就是一个离散的、符号、...翻译 2018-12-25 18:46:02 · 2771 阅读 · 0 评论 -
斯坦福nlp学习笔记(二)
cs224n-2017-notes1 这个课程一介绍nlp的基础概念开始,今天所面临的的困难,然后讨论了单词用数字向量表示的的概念,最后我们讨论单词向量的比较好的方法。 1 Introduction to natural language processing 开始什么是nlp 1.1 what is so sprcial about NLP...翻译 2018-12-26 19:17:28 · 802 阅读 · 0 评论 -
Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks的理解以及翻译
模型关于语句的相似度,由于变异以及长短不同表达,设计了一个这些中间,探究了输入的多个角度运用多个卷积类型以及多种类型的pooling,类似于运用了多个相似度函数。模型包括两个组成部分如图:如图1,两个输入的句子由两个并行的神经网络处理,输出句子representation,两个句子表示由一个结构化的相似性测量层,然后相似性的特征通过一个全连接来最终计算相似度。1、第一部分,为了句子相似...原创 2018-10-10 13:51:07 · 952 阅读 · 0 评论 -
QANET 分析以及解释
1、首先建立一个有效的阅读理解模型,完全利用卷积以及自我attention,据我们所知,他们是第一个这样做的,在保持准确率的情况下,同样增快的训练速度;2、为了提高模型的精确度,提出了一个新的数据增强技术来丰富训练数据集,通过意译; 2 THE MODEL模型的整体介绍 在第二章首先会介绍阅读理解的任务,然后描述提出的qanet模型,他是仅有卷积以及自我attenti...原创 2018-10-11 19:13:14 · 3674 阅读 · 0 评论 -
最后模型,基于adboost思想所做的分数提高的最后44名
基于以上模型的更改,接下来我们要介绍最后的模型,那就是基于adaboost模型原创 2018-08-23 21:55:37 · 277 阅读 · 0 评论 -
阿里跨语言短文本匹配算法竞赛总结初试,基于深度学cnn尝试
本次竞赛主要是及基于西班牙语的短文本来判断句子是否相似,目的比较明确,虽然没有取得很好的成绩,得到第44/1027名,可惜离top20还有一段距离;但针对于个人而言,尝试了很多论文方法,感受颇多i,针对于个人而言,需要记录自己的方法总结,以便能够做出改进,和大家分享,有问题指正,讨论,qq号614489362@qq.com,代码将放在github中; 数据介绍,官方数据介绍如下:...原创 2018-08-06 21:52:56 · 2155 阅读 · 1 评论 -
Attention-Based Bidirectional Long Short-Term Memory for Relation Classification双向lstm实体关系分类
本文章主要内容为关系分类的重大挑战是一个短文本的重要信息的位置并不确定提出的attention双向lstm;attention在许多博客都有相关解释,这里不作说明,双向lstm是对单向lstm做的改进,要通过上下文信息对当前lstm神经元做影响; 在引言部分作者介绍了关系分类的重要性,例如信息提取以及智能问答,文章举了一个小例子,实体与目标之间的关系,它是有关于fl...翻译 2018-04-11 22:24:04 · 4771 阅读 · 1 评论