动手学习深度学习 | 语言模型和循环神经网络笔记

本文介绍了文本处理的整体流程,包括分词、数据去重编号、采样方法(随机采样和相邻采样)以及语言模型如n-gram和RNN的应用。重点讨论了spacy在分词中的作用,以及RNN如何解决n-gram模型的局限性。
摘要由CSDN通过智能技术生成
0.文本处理整体概况

step1:对原始数据进行分词
step2:对分词后的数据进行去重编号,得到[词语to序号]的列表,和[序号to词语]的字典。将这两部分用作后续训练循环神经网络的数据集。
step3:通过一些采样方法对构建的数据集进行采样,得到训练的批次。常见的采样方法有随机采样和相邻采样。
step4:利用语言模型对上述的数据集进行训练,得到一个nlp模型。语言模型有n元语法模型,RNN模型,LSTM模型等。

1.使用spacy可以进行语言分词

达到很好的直观效果,相较于自己构建的逻辑,更加符合语言本身词意的分词操作,且可以将分词对应的idx对应输出。

import spacy
text = "Mr. Chen doesn't agree with my suggestion."
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])
print([token.idx for token in doc])

#------------------
['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
[0, 4, 9, 13, 17, 23, 28, 31, 41]
2.随机采样和相邻采样
2.1 随机采样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yuanCruise

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值