NLP 学习笔记之 Seq2seq

基础知识储备:
首先知道计算机把语言当作sequence
有一些标识符
BOS:begining of sequence,代表序列开始。
EOS:End of sequence,代表序列结束。
UNK: 低频词或未在词表中的词
PAD: 补全字符

Epoch(时期):
当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次>epoch。(也就是说,所有训练样本在神经网络中都 进行了一次正向传播 和一次反向传播 )
然而,当一个Epoch的样本(也就是所有的训练样本)数量可能太过庞大(对于计算机而言),就需要把它分成多个小块,也就是就是分成多个Batch 来进行训练。

Batch(批 / 一批样本):
将整个训练样本分成若干个Batch。

Batch_Size(批大小):
每批样本的大小。 样本数量/ 批次数= batch size
batchSize表示批次大小,如bathSize=5,代表模型处理完5个样本后,进行一次前向传播和反向传播;

Iteration(一次迭代):
训练一个Batch就是一次Iteration

一 Recurrent Neural Networks

一个RNN包括隐藏状态h、一个可选的输出y,可变长度输入序列x, X = {x1, x2, … xT}。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习深度学习自然语言处理等人工智能基础知识总结以及源代码.zip 说明 机器学习深度学习自然语言处理基础知识总结。 目前主要参考李航老师的《统计学习方法》一书,也有一些内容例如XGBoost、聚类、深度学习相关内容、NLP相关内容等是书中未提及的。 由于github的markdown解析器不支持latex,因此笔记部分需要在本地使用Typora才能正常浏览,也可以直接访问下面给出的博客链接。 Document文件夹下为笔记,Code文件夹下为代码,Data文件夹下为某些代码所使用的数据集,Image文件夹下为笔记部分所用到的图片。 由于时间和精力有限,部分代码来自github开源项目,如Seq2Seq、Transformer等部分的代码,部分章节代码待补充。 机器学习 线性回归(笔记) 感知机(笔记+代码) KNN(笔记+代码) 朴素贝叶斯(笔记+代码) 决策树(笔记+代码) 逻辑回归(笔记+代码) 最大熵(笔记+代码) SVM(笔记+代码) AdaBoost(笔记+代码) GBDT(笔记+代码) EM算法(笔记+代码) 隐马尔可夫模型(笔记+代码) 条件随机场(笔记) 随机森林(笔记+代码) XGBoost(笔记) 聚类(笔记) 特征工程之特征选择(笔记) 特征工程之降维算法(笔记深度学习 神经网络(笔记+代码) RNN(笔记) LSTM和GRU(笔记) CNN(笔记) 深度学习中的最优化方法(笔记自然语言处理 词嵌入之Word2Vec(笔记) 词嵌入之GloVe(笔记) 词嵌入之FastText(笔记) TextCNN(笔记+代码) Seq2Seq笔记+代码) Transformer(笔记+代码) BERT(笔记) LSTM+CRF进行序列标注(笔记) 主题模型(笔记

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值