探索诗歌的无尽宝藏:古腾堡诗歌语料库
欢迎来到一个创新的数字世界,这里蕴藏着大约三百万行来自古腾堡工程的诗歌——古腾堡诗歌语料库。这个由Allison Parrish精心构建的资源,专为创造性计算诗歌文本生成应用设计。现在,让我们一起深入了解它的魅力所在。
项目介绍
古腾堡诗歌语料库是一个gzip压缩的新线分隔JSON格式的数据集,包含了数百本公开领域书籍中的诗词精华。每一行诗都以JSON对象的形式存储,其中s
键保存着诗句本身,而gid
键则对应着古腾堡工程中该书的独特ID。通过这个ID,你可以轻松找到诗句的出处和作者信息。
项目技术分析
这个语料库提供的数据易于处理,只需Python即可快速上手。附带的quick-experiments.ipynb
笔记本示例展示了如何在Python环境中进行操作,无需安装额外的模块。项目利用build.py
脚本,结合Gutenberg, dammit来获取古腾堡工程的书籍,并通过一系列规则筛选出符合诗歌特征的句子。
应用场景
古腾堡诗歌语料库的应用场景广泛,包括但不限于:
- 创意诗作生成:例如,基于此语料库构建的古腾堡诗歌自动补全,可帮助创作新的诗歌作品。
- 文字风格研究:如*[Articulations]*,一本通过查找语音相似诗句生成的诗集。
- 意义关联探索:比如Prompt to Poem,它寻找与维基百科情节摘要意义相近的诗句。
- 计算机生成诗歌的实验:Lynn Cherny曾使用此语料库进行了初步的计算机诗歌风格研究。
项目特点
- 广泛的来源:来源于几百本英语公共领域诗歌书籍,确保了内容的丰富性。
- 精选内容:通过特定文本特征筛选,只保留符合诗歌特性且无明显不当语言的诗句。
- 易于使用:提供newline-delimited JSON格式,便于编程接口集成。
- 开放源代码:遵循CC0许可,允许自由使用和改编,鼓励更多创新应用。
是否已经对古腾堡诗歌语料库充满好奇?那么现在就行动起来,下载并开始你的数字诗歌之旅吧!无论是创新的文本生成,还是深入的语言研究,这个独特的资源库都将是你不可多得的工具。我们期待看到你用它创造出令人惊叹的作品!