资源 | 一网打尽成语歇后语，GitHub新华字典数据库

weixin_34336292

于 2018-07-31 13:40:43 发布

阅读量250

点赞数

文章标签：数据库 python 大数据

原文链接：https://yq.aliyun.com/articles/620575

版权

今天，文摘菌给大家推荐一个非常优秀的数据库——新华字典数据库。

数据库收录了包括14032条歇后语，16142个汉字，31648个成语。下面文摘菌就简单的介绍一下这个数据库。

这个数据库放在GitHub中，所有的数据放在data/目录下，并且如果对性能没有要求的同学，可以使用作者的新华字典API访问数据库。

数据库地址：
https://github.com/pwxcoo/chinese-xinhua

项目结构

在GitHub中，整个新华字典数据库的项目结构为：

整个结构包括数据文件夹，配置文件以及脚本文件夹，在脚本文件夹下提供了成语脚本和汉字脚本以及歇后语脚本的下载。

数据库介绍及API的使用

前面提到，整个数据库包括14032条歇后语，16142个汉字，31648个成语。

在使用API查询每条成语的时候，分为两种情况：
如果直接请求成语，需要两个参数：
type=idiom 表示需要请求成语
word=兴高采烈表示请求的成语
请求拼音首字母缩写，也需要两个参数：
type=idiom 表示需要请求成语
word=xgcl 表示请求的成语拼音首字母缩写

下面文摘菌用Python简单实现了一下：

返回结果为：

上图可知，当你请求的是成语时，返回的结果包括：成语的来源、成语的解释、成语的拼音、用成语造的句子以及成语的首字母缩写。

当访问歇后语的时候则也需要两个参数：
type=xiehouyu 表示需要请求歇后语
riddle=王婆表示请求的歇后语的语面。可以模糊匹配

Python实现

由上图的Python实现可知，当你输入的关键词是模糊的时候，结果会返回带有关键词的所有歇后语。例如，你查询关键词为王婆的歇后语，返回了三条结果，每条结果包含歇后语的迷面以及歇后语的谜底。

当需要访问汉字的时候，当前接口只能直接请求汉字，不能请求拼音。如果请求了拼音，则返回的结果为空。

请求汉字需要两个参数：
type=word 表示需要请求汉字
word=“蒋” 表示请求的汉字

Python实现

如上图所示，当请求‘蒋’这个汉字的时候，返回的结果包括汉字的拼音、汉字的来源、以及汉字的繁体版等等。

注：GET、POST均可，返回数据格式为JSON。

数据库GitHub地址：
https://github.com/pwxcoo/chinese-xinhua

原文发布时间为：2018-07-30
本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“大数据文摘”。

weixin_34336292

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。