声明:本文首发微信公众号【菜鸟要飞】,如有转载,请标明出处!
前言
最近教3岁多的外甥背古诗,那叫一个头疼,一方面自己能朗朗上口的诗也就那几首,另一方面一首诗要反复念很多遍。好吧,一个idea就在我脑海中产生了,为啥不开发一款关于古诗的app或小程序呢,在配置上单句重读,卡通声音等功能。不但能把我解放出来,而且现在的小孩子酷爱玩手机,即使是在手机上学习,对他们来说也是非常乐意的。程序员和idea都有了就差数据啦。找数据还真是浪费了不少时间。虽然经常狂github,但始终没有想到。最后,打算自己爬取一些网站上的数据,但在找开源的古诗app时,意外发现了这两个开源的数据库,真是很惊喜啊。
最全中华古诗词数据库
项目地址:https://github.com/chinese-poetry/chinese-poetry
此项目包含5.5万首唐诗、26万首宋诗和2.1万首宋词、唐宋两朝近1.4万古诗人、和两宋时期1.5K词人,作者分别提供了json格式的数据和用于数据库存储的数据。当然这些数据是作者爬取自互联网,是否有版权问题还有待考究,自己拿来玩还是大可放心的。
有了这些数据,开发一款唐诗宋词几百首的产品应该不成问题。如果你是研究深度学习领域的就可以玩的更高级的了,开发一款会作诗的机器人应该也不难,GitHub上也有现成的项目可供大家学习,https://github.com/chenyuntc/pytorch-book/tree/master/chapter9-%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%86%99%E8%AF%97(CharRNN),其实也可以加上图像识别的功能,实现通过提取照片上的景物作一首相关诗词的功能,毕竟作诗讲究的是情景交融。可惜小编对深度学习和机器学习完全小白,有兴趣有能力的读者可以尝试一下。
中华新华字典数据库
项目地址:https://github.com/pwxcoo/chinese-xinhua
此项目目前收录了包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。当然这些数据同样是作者爬取自互联网,商用的请注意版权问题。作者除了提供了json格式和数据库存储的数据外,还提供了API供开发者调用,可以说很用心了。
最后,老规矩,看完了就帮忙撸根羊毛。建议大家把这两份数据备份到本地,丢失了多可惜,现在数据有了,程序员也有了。就差一个idea了,欢迎大家留言分享自己的想法。
欢迎关注我的公众号:【菜鸟要飞】 ,面试宝典、学习路线、源码分享等等你来学