pytorch-知识点笔记2-文本预处理/语言模型/rnn

本文记录学习下面三个任务过程中思考过的问题及大家讨论过程中学习到的知识点,欢迎指正。

  • 文本预处理
  • 语言模型
  • rnn

基础知识部分直接参考Dive-into-DL-PyTorch

ngram的缺点以及如何解决

gram模型的缺点:
参数系数,参数空间过大,存储和内存吃不消
参数空间过大
数据稀疏
但如何解决上述问题,只需要加入平滑方法,如
Additive smoothing
Good-Turing estimate
Jelinek-Mercer smoothing (interpolation)
Katz smoothing (backoff)
Witten-Bell smoothing
Absolute discounting
Kneser-Ney smoothing (常用)
具体细节可以参考 Speech and Language Processing

如何可视化理解序列模型的采样

在这里插入图片描述
原文
比如 给定训练数据[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],批量大小为batch_size=2,时间步数为2,则resize成[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9],则第一个batch为[[0, 1],[5, 6]];第二个batch为[[2, 3],[7, 8]]
所以便很好代码逻辑

def data_iter_consecutive(corpus_indices, batch_size, num_steps, device=None):
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    corpus_len = len
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值