使用TensorFlow动手实现一个Char-RNN

最新推荐文章于 2024-07-26 15:36:49 发布

thriving_fcl

最新推荐文章于 2024-07-26 15:36:49 发布

阅读量9.6k

点赞数 4

分类专栏： TensorFlow 深度学习文章标签：深度学习 TensorFlow RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/thriving_fcl/article/details/72565455

版权

本文详细介绍了如何使用TensorFlow从零开始实现一个Char-RNN模型，包括模型选择、模型定义，以及如何处理输入和输出。通过实践加深对RNN和LSTM的理解，探索文本生成的可能性。

摘要由CSDN通过智能技术生成

前言

学习RNN的时候很多人应该都有看过Andrej Karpathy写的The Unreasonable Effectiveness of Recurrent Neural Networks，使用基于字符粒度的RNN让机器学会自己生成文本，比如令自己训练的RNN学会写歌词、写代码、写小说、写诗，听着就很新奇。

github上虽然已经有实现好的Char RNN，比如
1. https://github.com/karpathy/char-rnn
2. https://github.com/crazydonkey200/tensorflow-char-rnn

但是想要学习，最好的方式就是自己动手实现一遍。自己写一遍好处还是很多的，比如加深对RNN(LSTM)的理解，可以熟悉深度学习的框架。因为我主要用tensorflow，所以就基于tensorflow实现了一遍Char-RNN。

注：本文使用的tensorflow版本为1.0.0

个人经验，在实现的过程中最好是抛开别人代码的影响，只根据基本理论以及所用的框架的API文档一步步把代码写出来跑通，这样自己的收益才是最大的。

模型选择

要让机器生成文本，本质上是需要一个语言模型。语言模型可以用来评估一句话是自然语言的概率，即根据一句话中已观测到的词，预测下一个词出现的概率。也就是要能够处理序列数据，根据已有的序列数据，推断接下来可能的数据。如一句话“已经到了午餐时间，我正准备去吃{?}”，根据前面的描述，可以推断“吃”字背后是要接上可食用的东西，并且是可以作为午餐的，可能是“饭”、“面”等等，通常不可能是“汽车”、“树木”之类…因此我们需要一个能够处理序列数据，并且能够抽象出过去序列与任务相关方面的信息，再根据这些信息预测未来的模型。

神经网络中，RNN天然适合用于处理序列数据，它可以提取任意长度序列 (x(t),x(t−1),

最低0.47元/天解锁文章

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

thriving_fcl CSDN认证博客专家 CSDN认证企业博客

码龄9年

26: 原创

73万+: 周排名

212万+: 总排名

38万+: 访问

: 等级

2548: 积分

168: 粉丝

168: 获赞

203: 评论

363: 收藏

私信

关注

热门文章

分类专栏

最新评论

用于文本相似的Siamese Network
夏日流萤: 为什么L-低于m就设为0，而L+低于m不用设为0呢？
TensorFlow 模型保存/载入的两种方法
信号处理学渣: 谢谢博主分享，想问下，第二种方法好像缺很多代码？那些尺寸都需要给一些初值吧？其次，没有训练数据貌似，最后，train_op也没定义吧？想问下有人给具体数据、给完整的代码么？
Tensorflow实现卷积神经网络，用于人脸关键点识别
qq_44940657: 你好，你找到了吗？能不能也给我
Spark Partition
荒-于嬉: rdd计算的最小单元,RDD具备计算能力吗?我百度的好多说他只是一个数据集,我理解的他在spark中的位置更类似于一个数据源,所有的executor都是从RDD获取数据的.
FastText 文本分类使用心得
yifanrensheng: 那是多标签

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。