Day2

最新推荐文章于 2024-05-11 16:00:47 发布

m0_46245299

最新推荐文章于 2024-05-11 16:00:47 发布

阅读量74

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46245299/article/details/104311953

版权

一、文本预处理

1.文本是一类序列数据，一篇文章可以看作是字符或单词的序列，预处理通常包括四个步骤：

（1）读入文本
（2）分词
（3）建立字典，将每一个词映射到一个唯一的索引
（4）将文本从词的序列转化为索引的序列，方便输入模型

2.现有的分词工具

例如： SpaCy, NLTK

二、语言模型

1.一段自然语言文本可以看作是一个离散时间序列，给定一个长度为 T 的词的序列 w1,w2,…,wT ，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

											P(w1,w2,…,wT).

2.在时序数据的采样，我们通常使用随机采样和相邻采样两种方法。

三、循环神经网络基础

1.循环神经网络可以用来实现语言模型。我们可以基于当前输入与过去输入的数据来预测接下来的序列字符。下图展示了循环神经网络实现语言模型的示例：
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

m0_46245299 CSDN认证博客专家 CSDN认证企业博客

码龄5年

8: 原创

117万+: 周排名

139万+: 总排名

690: 访问

: 等级

80: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。