10.9 周三
1.A Neural Probabilistic Language Model 论文阅读及实战 https://www.jianshu.com/p/be242ed3f314
代码看不懂 文章主体内容看完了 需要看一遍英文版 这个好像是很经典的统计语言模型
2. https://blog.csdn.net/weixin_42746469/article/details/89335988word2vec 中文词向量 jieba分词之后 word2vec.Word2Vec 训练预料 可以自己设置维度 出来之后的分词向量 就是相似的 距离相近
3. jieba分词 https://www.jianshu.com/p/cdea68108cbf jieba.suggest_freq动态修改词典 可以使用自定义词典
4.https://blog.csdn.net/hx14301009/article/details/80345449 Important
https://blog.csdn.net/xiaqian0917/article/details/51946582
两篇阅读
输入词向量 进行训练 根据前t个单词来预测t+1个单词的出现 通过梯度下降 bp传播 来达到最终训练“输入”的情况 输入x包含在C中 反向更新 最终得到适合于本文本的vector
5. State Tracking Networks for Dialog State Tracking 状态跟踪
状态不是你说的那种,图状的,状态就是h,就是一个矩阵,可能表示某些话答了某些话没答这些,在每一次turn(人机交互utterance时更新),更新与否,以及更新的方式由本文提出,
首先由本次输入(句子、概率、前馈神经网络)来确定阈值,然后映射(?)出一个预测值(未来值?),由阈值来连接t-1时刻状态和预测的t时刻状态,并且确定是否更新
问题:预测值怎么得,
还没看完traning 以及不知道前馈神经网络是啥
10.10周四
没干啥 上了一天课 上午没课 看了会机器学习 看了SVM 到了核函数那部分了
晚上来实验室待一会 继续看昨天那个论文的Experiment部分
训练的时候使用了Reinforce算法,实不相瞒,没看懂
记录一下link吧
https://tigerneil.wordpress.com/2016/05/23/reinforce-algorithm/
https://www.cnblogs.com/wangxiaocvpr/p/6623078.html
本论文特点:expllict gate来model state updater,通过recurrent,可以把所有的dialog history输入,使用了端到端的追踪,不需要NLU module。
疑惑:end-to-end到底是什么概念
End-to-end:输入是raw-data 输出直接是结果,通过将整体模型集合的方法,来减少人工处理数据提取特征的步骤(如果多个模型分别训练,可能出现模型1的最优不是模型2的最优)
10.11 周五
心情不好,烦躁,不咋看得下去东西,不知道是咖啡的原因还是什么,强迫自己看吧。
1. 关于SLU(意图识别、槽填充、上下文LU、结构化LU)和NLG的论文汇总 https://cloud.tencent.com/developer/article/1376058
网上看到的一个汇总,没论文看的时候可以从这上面弄
2.
End-to-End Memory Networks with Knowledge Carryover_for Multi-Turn Spoken Language Understanding
看了一部分,没看完,看到标黄那里了
3. 感觉End-To-End Memory Networks这个可能更有价值一些。
开始看这个
https://blog.csdn.net/xizero00/article/details/51182003这是个可能有用的参考
10.12 周六
之前写的不见了。。
重新看一遍Attention
https://www.leiphone.com/news/201709/8tDpwklrKubaecTa.htmlRNN CNN Attention机制 图解 很详细
https://blog.csdn.net/hahajinbu/article/details/81940355 nlp中的Attention机制总结 Important 但是感觉少了些什么
我终于知道我为什么看不懂attention is all you need 了 ,它里面提出来的multihead attention是个加强版的呀。。。我先把soft和hard看懂再说
Neural Machine Translation by Jointly Learning to Align and Translate 这里是soft attention
!!!http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html台大李宏毅课程
https://www.cnblogs.com/ydcode/p/11038064.html
10.13 周日
1. 今天是个好日子啊 来了一看attention机制的理解 终于能看懂了,也不知道是人家写得好 还是自己今天状态还可以的原因。
浅谈Attention机制的理解:https://www.cnblogs.com/ydcode/p/11038064.html这篇文章是在太好了!
现阶段Attention的处理都是键值对查询的方式,其中query其实就是上一阶段的decoder状态(t-1),然后key就是input,
key和value的值一样,是因为要先通过key和query计算权重,然后通过权重来衡量不同时刻的隐层的占比
F(Q,K)是打分的值,这个值的高低代表decoder上一状态和当前input(t)的相似程度,softmax之后,就成为了\alpha权重。
最终输出的Attention value就是我们根据t-1时刻的decoder状态和t时刻依赖的所有的input 所预测的t时刻decoder状态
2. 接下来看一下具体的数学计算和代码吧, 进一步跟进!
3,在人家博客上的 一些学习资料总结 https://www.cnblogs.com/ydcode/p/11038064.html
4. GitHub上 学习路径!https://github.com/loveunk/machine-learning-deep-learning-notes
5. https://blog.csdn.net/weixin_42744102/article/details/87006081 attention is all you need 源码解析 todo