基于国家统计局城乡规划数据的地名提取（2）

最新推荐文章于 2022-07-26 23:18:16 发布

pythoner_116

最新推荐文章于 2022-07-26 23:18:16 发布

阅读量467

点赞数 1

分类专栏：实战项目爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_43548498/article/details/103769401

版权

实战项目同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

爬虫

6 篇文章 0 订阅

订阅专栏

在上一篇中我们采集了国家统计局2018年的全国地名数据。接下来，我们将会用这个数据进行匹配，提取相关的地级市与省份。

在这里插入图片描述
之前我们采集的全国地名数据分为了两种数据结构分别保存，在这里我们使用第一种结构的数据。

接下来我们要写一个进行提取的函数。输入是公司名称的字符串，公司所属省份，与省份对应相应的地名数据。
在这里插入图片描述
接下来就进入重点了，开始对前两个词的地名数据进行匹配。首先对第一个词进行匹配。

在这里插入图片描述
若第一个词未返回数据对第二个词进行匹配

在这里插入图片描述

到此我们的地名提取基本上结束了。我们随便拿两个数据测试下

首先加载数据，这个就是我们之间采集的地名数据

province_data = open('./China_place_data.json', encoding="utf-8").read()
province_data = json.loads(procince_data)

然后提取所属地级市

place = extract_place('韩城市城市投资(集团)有限公司', procince_data['陕西省'], '陕西')
"维吾尔自治区", ""))

在这里插入图片描述

可以看到最终提取到“韩城市城市投资(集团)有限公司”所属的地级市为渭南市。

github:https://github.com/sph116/Company_Place_name_extraction

基于国家统计局的地名提取项目就到此结束啦，后续我还会继续发布一些机器学习，爬虫相关的实战项目，欢迎交流哦！

在这里插入图片描述

欢迎扫码关注：

在这里插入图片描述

pythoner_116

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于国家统计局城乡规划数据的地名提取（2）

在上一篇中我们采集了国家统计局2018年的全国地名数据。接下来，我们将会用这个数据进行匹配，提取相关的地级市与省份。之前我们采集的全国地名数据分为了两种数据结构分别保存，在这里我们使用第一种结构的数据。接下来我们要写一个进行提取的函数。输入是公司名称的字符串，公司所属省份，与省份对应相应的地名数据。接下来就进入重点了，开始对前两个词的地名数据进行匹配。首先对第一个词进行匹配。若第一...
复制链接

扫一扫