神经网络与深度学习第四次学习总结

tingyun2333

于 2024-04-27 10:12:38 发布

阅读量271

点赞数 4

文章标签：神经网络人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tingyun2333/article/details/138239532

版权

7 循环神经网络与NLP

7.1 数据处理基础

7.1.1 特征编码

使用199维特征向量表达一个人的特征

7.2 文本处理

7.2.1 文本切分

7.2.2 统计词频

创建一个字典( 实际中经常使用 Hash 表 ) 进行词频统计（初始字典为空）

将词频索引化如果词汇太多，则只保留排序在前的k个单词 (如取𝑘 = 10000)
将每一个词映射到索引号上

7.3 文本预处理

一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。我们将解析文本的常见预处理步骤。这些步骤通常包括：
将文本作为字符串加载到内存中
将字符串切分为词元（如单词和字符）
建立一个字典，将拆分的词元映射到数字索引
将文本转换为数字索引序列，方便模型操作
读取数据集

词汇切分
构建词索引表
打印前几个高频词及索引
[('<unk>', 0), ('the', 1), ('i', 2), ('and', 3), ('of', 4),
('a', 5), ('to', 6), ('was', 7), ('in', 8), ('that', 9)]
将每一条文本行转换成一个数字索引列表
文本: ['the', 'time', 'machine', 'by', 'h', 'g', 'wells']
索引: [1, 19, 50, 40, 2183, 2184, 400]
文本 : ['twinkled', 'and', 'his', 'usually', 'pale', 'face',
'was', 'flushed', 'and', 'animated', 'the']
索引: [2186, 3, 25, 1044, 362, 113, 7, 1421, 3, 1045, 1]

7.4 文本嵌入

词嵌入（word embedding)

将独热向量映射为低维向量

原始向量：𝑣维；映射后：𝑑维，𝑑 ≪ 𝑣；

映射矩阵： 𝑑 × 𝑣 ，根据训练数据学习得到
理解映射参数矩阵

7.5 RNN模型

7.5.1 RNN模型

7.5.2 RNN示例

结果评价
• 训练精度: 89.2%
• 验证精度: 84.3%
• 测试精度: 84.4%

7.5.3 RNN问题

随着输入的增加，会产生“遗忘”问题

7.6 LSTM模型

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习第四次学习总结

使用199维特征向量表达一个人的特征。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。