lesson03
1.RNN的特点(优点缺点)
信息越来越堆积最后最多,只有单向有影响而且影响递减(需深入了解,面试100%)/*/
2.GRU
一篇经典博客,(面试可能会让画出论文图示和讲解原理)/*/
3.NER
LSTM+softmax
LSTM+CRF
CRF比softmax复杂,为什么要用softmax?(面试)/*/
1.CRF可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练时,这些约束可以通过CRF层自动学习到。
2.使用全局函数优化,使用维特比算法(详细待扩充)
----------------------------------------------------------------------------------------------------------------------------
lesson04
要求:
手工实现代码,为知识图谱提供语料(看完demo,需要自己实现一遍)
使用预训练编码(最流行有效)+finetune
dropout 丢弃一部分,降低过拟合
line75 之后计算误差:人工手写计算误差的函数,github上有很多,可以适当改写
一、图表征
用特定的方法表征对象:图表征用来表征知识图谱(就像词向量表征汉字一样)
过程中可以合并指代同一对象的实体,进行简化
映射模型 向量相加 (/?/)
游走模型 随机游走 (/?/)
二、latticeLSTM+CRF(ACL2018最佳模型奖,NLP领域颠覆性作用)
(面试:是否读过,是否实现过/*/)
如南京市长江大桥
BiLSTM+CRF:“南京市长” “江大桥”
lattice: “南京市” “长江大桥”
-------------------------------------------------------------------------------------------------------------------------------
lesson05
本届介绍知识图谱的最流行的图数据库:Neo4j
Neo4j是一个Java开发的高性能NoSQL图形数据库,它将结构化数据存储在网络而不是表中
(除了顶级大厂有自己定义的数据库外,其他厂家都用的Node4j,容量约千万级节点,亿级边)
Neo4j集成了CQL语言,这种语言无法在脚本中使用,但可以用python+Neo的转接接口使用(py2neo库)