数据库 统计数据收集 有什么作用_chinese-poetry: 最全中文诗歌古典文集数据库

fa68ff823cbdf1d8b7179094903a5030.png

简介

Chinese-poetry 可能是全网最全中文是个古典文集数据库了,目前托管在 GitHub 上,数据是 json 格式,方便进行版本管理。该项目截止目前为止收集了互联网上 5.5 万首唐诗、26 万首宋诗和2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人。该仓库贡献最多的是来自 Teambition 的 JackeyGao 和另一位 Python、Java 开发者 animalize。

数据集

该仓库收集的数据集合罗列如下:

  • 全唐诗 json
  • 全宋诗 json
  • 全宋词 ci
  • 五代·花间集 wudai
  • 五代·南唐二主词 wudai
  • 论语 lunyu
  • 诗经 shijing
  • 幽梦影 youmengying
  • 四书五经 sishuwujing
  • 蒙學 mengxue

计划要收集的是:

  • 清代诗词
  • 元曲

数据分析

目前作者对数据集做了一些数据分析,挖掘出了一些有趣的统计数据。

  • 两宋喜欢的词牌名是浣溪沙

815275a091c88d525b6da5a480710f87.png
  • 宋词作者作品榜,作品流传下来最多的是辛弃疾

2a08e9d7d54b732b021ccbbccf0ae05e.png
  • 宋词高频词:宋词中大家最喜欢用的词是东风

adfa061f3e5ca3370d5900dedccab4b3.png
  • 唐诗作者作品榜:唐诗作品流传下来最多的是白居易。

b16263524b3183f52cd47c38bfdd03da.png
  • 宋诗作者作品榜:宋诗作品流传下来最多的是陆游。

ad68642ff7a789ef35ba9738d97a33ab.png
  • 宋诗高频词:宋朝诗歌中最常见的词语是"人间"

7bb76aa34d24d76aaf64a050ff6a2421.png
  • 唐诗高频词:唐诗中最常见的词语是"何处","人间"也不少。

08c112dfaf24e3ff2ef4598d55dd4bba.png

应用

作者已经在 README 中例举了几个利用该数据库自动生成古诗词的机器学习项目和几个古诗词鉴赏的项目。

因为该仓库是 MIT 许可,有想法的小伙伴可以利用这个数据库作出不少好玩的应用。

项目地址

chinese-poetry/chinese-poetry​github.com
adf53536c5179ae4d397e97fbc2ec924.png

最后,关注 “带逛 GitHub”,每天了解更多有趣有用的开源项目。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值