探索诗歌的无尽宝藏:古腾堡诗歌语料库

探索诗歌的无尽宝藏:古腾堡诗歌语料库

欢迎来到一个创新的数字世界,这里蕴藏着大约三百万行来自古腾堡工程的诗歌——古腾堡诗歌语料库。这个由Allison Parrish精心构建的资源,专为创造性计算诗歌文本生成应用设计。现在,让我们一起深入了解它的魅力所在。

项目介绍

古腾堡诗歌语料库是一个gzip压缩的新线分隔JSON格式的数据集,包含了数百本公开领域书籍中的诗词精华。每一行诗都以JSON对象的形式存储,其中s键保存着诗句本身,而gid键则对应着古腾堡工程中该书的独特ID。通过这个ID,你可以轻松找到诗句的出处和作者信息。

项目技术分析

这个语料库提供的数据易于处理,只需Python即可快速上手。附带的quick-experiments.ipynb笔记本示例展示了如何在Python环境中进行操作,无需安装额外的模块。项目利用build.py脚本,结合Gutenberg, dammit来获取古腾堡工程的书籍,并通过一系列规则筛选出符合诗歌特征的句子。

应用场景

古腾堡诗歌语料库的应用场景广泛,包括但不限于:

  1. 创意诗作生成:例如,基于此语料库构建的古腾堡诗歌自动补全,可帮助创作新的诗歌作品。
  2. 文字风格研究:如*[Articulations]*,一本通过查找语音相似诗句生成的诗集。
  3. 意义关联探索:比如Prompt to Poem,它寻找与维基百科情节摘要意义相近的诗句。
  4. 计算机生成诗歌的实验:Lynn Cherny曾使用此语料库进行了初步的计算机诗歌风格研究。

项目特点

  1. 广泛的来源:来源于几百本英语公共领域诗歌书籍,确保了内容的丰富性。
  2. 精选内容:通过特定文本特征筛选,只保留符合诗歌特性且无明显不当语言的诗句。
  3. 易于使用:提供newline-delimited JSON格式,便于编程接口集成。
  4. 开放源代码:遵循CC0许可,允许自由使用和改编,鼓励更多创新应用。

是否已经对古腾堡诗歌语料库充满好奇?那么现在就行动起来,下载并开始你的数字诗歌之旅吧!无论是创新的文本生成,还是深入的语言研究,这个独特的资源库都将是你不可多得的工具。我们期待看到你用它创造出令人惊叹的作品!

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

武允倩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值