“最怕空气突然安静,最怕程序员突然认真。” 中华小诗库,一定非它莫属。
chinese-poetry,一个极具中华传统文化浓浓气息的项目,一夜之间,登上 GitHub 热搜榜。截止目前,关注数已然过万。
覆盖 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词,包含唐宋两朝大约 1.4 万诗人和两宋时期 1.5K 词人,说它是当下最全的中华古典文集数据库,一点也不为过。
chinese-poetry 提供的数据分发结构默认采用最流行的标准 Json 格式,并使用繁体字形式保留古诗词最原始的数据,譬如:
诗词信息
[
{
"strains": [
"平平平仄仄,平仄仄平平。",
"仄仄平平仄,平平仄仄平。",
"平平平仄仄,平仄仄平平。",
"平仄仄平仄,平平仄仄平。"
],
"author": "太宗皇帝",
"paragraphs": [
"秦川雄帝宅,函谷壯皇居。",
"綺殿千尋起,離宮百雉餘。",
"連甍遙接漢,飛觀迥凌虛。",
"雲日隱層闕,風煙出綺疎。"
],
"title": "帝京篇十首 一"
},
... 每单个JSON文件1000条唐诗记录.
]
作者信息
[
{
"name": "太宗皇帝",
"desc": "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。"
},
...
]
考虑到使用场景的多样性和便捷性,作者还提供了简体中文版和适用于 mysql 数据库的其他类型的数据格式:
chinese-poetry / chinese-poetry-zhCN
KomaBeyond / chinese-poetry-mysql
那么,这么全的数据能被拿来做什么呢?
菜都准备好了,怎么炒还不是随便你咯?
比如,做做简单的高频数据分析,花样词云、关键字图表等,拿来练练手之类的项目,数据不就有了嘛:
高手在民间,不妨看看别人的成果:
诗词周历
诗词桌面
甚至是一款完整的《离线全唐诗》App,也不在话下:
值得高兴的是,这些都是挂在 GitHub 网站中衍生出来的已经开源的项目,都是可以拿来学习的。
这个项目告诉我们,不要轻易地说:程序员没文化,有文化的程序员,认真起来,那是相当得可怕。
猜你喜欢: