动手深度学习笔记（四十六）8.2. 文本预处理

最新推荐文章于 2024-07-10 00:15:53 发布

落花逐流水

最新推荐文章于 2024-07-10 00:15:53 发布

阅读量308

点赞数

分类专栏： pytorch实践 pytorch 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/juluwangriyue/article/details/128961844

版权

pytorch实践同时被 2 个专栏收录

136 篇文章 114 订阅 ¥29.90 ¥99.00

订阅专栏

94 篇文章 12 订阅

订阅专栏

本文介绍了深度学习中针对文本数据的预处理步骤，包括读取数据集、词元化、构建词表以及将文本转换为数字序列。通过实例展示了如何处理H.G.Well的《时光机器》文本，强调了预处理在处理序列数据如文本时的重要性。

摘要由CSDN通过智能技术生成

动手深度学习笔记（四十六）8.2. 文本预处理

8.2. 文本预处理

8.2. 文本预处理

对于序列数据处理问题，我们在 8.1节中评估了所需的统计工具和预测时面临的挑战。这样的数据存在许多种形式，文本是最常见例子之一。例如，一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。本节中，我们将解析文本的常见预处理步骤。这些步骤通常包括：

将文本作为字符串加载到内存中。
将字符串拆分为词元（如单词和字符）。
建立一个词表，将拆分的词元映射到数字索引。
将文本转换为数字索引序列，方便模型操作。

import collections
import re
from d2l import torch as d2l

了解本专栏

落花逐流水

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

落花逐流水

CSDN认证博客专家 CSDN认证企业博客

码龄9年

767: 原创

1万+: 周排名

2973: 总排名

125万+: 访问

: 等级

9911: 积分

1092: 粉丝

800: 获赞

416: 评论

3873: 收藏

私信

关注

热门文章

分类专栏

最新评论

下载B站视频作为PPT素材
穷苦书生_万事愁: 这篇博主的分享让我对“下载B站视频作为PPT素材”有了全新的认识，文章中的细节描写非常到位，让我深切感受到了博主的深厚功底。期待博主未来能够持续分享更多像这样有价值的好文，也希望能够得到博主的指导，共同进步。非常感谢博主的用心分享和支持！
Segment Anything论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Eigen库学习笔记（四）Eigen用于三维张量
落花逐流水: 好问题，我又试了一下。顺便补充了一个测试。按照索引访问是没有问题的，直接打印存在问题应该说明这个三维底层其实是用二维表示的，2组3行4列，其中3行4列被拉伸成1维了。
Eigen库学习笔记（四）Eigen用于三维张量
huangsiling123: 3维张量这个好像不对，应该是4个2行3列的矩阵吧，直接输出a的话不是这个结果
libtorch动态图占显存不断增加问题
把假发片还给我: 加上torch::NoGradGuard no_grad;

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

落花逐流水 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。