基于国家统计局城乡规划数据的地名提取(2)

在上一篇中我们采集了国家统计局2018年的全国地名数据。接下来,我们将会用这个数据进行匹配,提取相关的地级市与省份。

在这里插入图片描述
之前我们采集的全国地名数据分为了两种数据结构分别保存,在这里我们使用第一种结构的数据。
在这里插入图片描述
接下来我们要写一个进行提取的函数。输入是公司名称的字符串,公司所属省份,与省份对应相应的地名数据。
在这里插入图片描述
接下来就进入重点了,开始对前两个词的地名数据进行匹配。首先对第一个词进行匹配。

在这里插入图片描述
若第一个词未返回数据 对第二个词进行匹配

在这里插入图片描述

到此我们的地名提取基本上结束了。我们随便拿两个数据测试下

首先加载数据,这个就是我们之间采集的地名数据

province_data = open('./China_place_data.json', encoding="utf-8").read()
province_data = json.loads(procince_data)

然后提取所属地级市

place = extract_place('韩城市城市投资(集团)有限公司', procince_data['陕西省'], '陕西')
"维吾尔自治区", ""))

在这里插入图片描述

可以看到 最终提取到“韩城市城市投资(集团)有限公司”所属的地级市为渭南市

github:https://github.com/sph116/Company_Place_name_extraction

基于国家统计局的地名提取项目就到此结束啦,后续我还会继续发布一些机器学习,爬虫相关的实战项目,欢迎交流哦!

在这里插入图片描述

欢迎扫码关注:

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值