探索诗歌的无尽宝藏：古腾堡诗歌语料库

武允倩

于 2024-06-02 09:44:37 发布

阅读量355

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_00049/article/details/139385529

版权

探索诗歌的无尽宝藏：古腾堡诗歌语料库

欢迎来到一个创新的数字世界，这里蕴藏着大约三百万行来自古腾堡工程的诗歌——古腾堡诗歌语料库。这个由Allison Parrish精心构建的资源，专为创造性计算诗歌文本生成应用设计。现在，让我们一起深入了解它的魅力所在。

项目介绍

古腾堡诗歌语料库是一个gzip压缩的新线分隔JSON格式的数据集，包含了数百本公开领域书籍中的诗词精华。每一行诗都以JSON对象的形式存储，其中s键保存着诗句本身，而gid键则对应着古腾堡工程中该书的独特ID。通过这个ID，你可以轻松找到诗句的出处和作者信息。

项目技术分析

这个语料库提供的数据易于处理，只需Python即可快速上手。附带的quick-experiments.ipynb笔记本示例展示了如何在Python环境中进行操作，无需安装额外的模块。项目利用build.py脚本，结合Gutenberg, dammit来获取古腾堡工程的书籍，并通过一系列规则筛选出符合诗歌特征的句子。

应用场景

古腾堡诗歌语料库的应用场景广泛，包括但不限于：

创意诗作生成：例如，基于此语料库构建的古腾堡诗歌自动补全，可帮助创作新的诗歌作品。
文字风格研究：如*[Articulations]*，一本通过查找语音相似诗句生成的诗集。
意义关联探索：比如Prompt to Poem，它寻找与维基百科情节摘要意义相近的诗句。
计算机生成诗歌的实验：Lynn Cherny曾使用此语料库进行了初步的计算机诗歌风格研究。

项目特点

广泛的来源：来源于几百本英语公共领域诗歌书籍，确保了内容的丰富性。
精选内容：通过特定文本特征筛选，只保留符合诗歌特性且无明显不当语言的诗句。
易于使用：提供newline-delimited JSON格式，便于编程接口集成。
开放源代码：遵循CC0许可，允许自由使用和改编，鼓励更多创新应用。

是否已经对古腾堡诗歌语料库充满好奇？那么现在就行动起来，下载并开始你的数字诗歌之旅吧！无论是创新的文本生成，还是深入的语言研究，这个独特的资源库都将是你不可多得的工具。我们期待看到你用它创造出令人惊叹的作品！

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
探索诗歌的无尽宝藏：古腾堡诗歌语料库

探索诗歌的无尽宝藏：古腾堡诗歌语料库项目地址:https://gitcode.com/aparrish/gutenberg-poetry-corpus欢迎来到一个创新的数字世界，这里蕴藏着大约三百万行来自古腾堡工程的诗歌——古腾堡诗歌语料库。这个由Allison Parrish精心构建的资源，专为创造性计算诗歌文本生成应用设计。现在，让我们一起深入了解它的魅力所在。项目介绍古腾堡诗歌语料库...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

武允倩 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。