addressparser中文地址提取工具

addressparser中文地址提取工具,支持中国三级区划地址(省、市、区)提取和映射。

!pip3 install addressparser==0.2.1

省市区提取

默认采用全文模式,不进行分词,直接全文匹配,这样速度慢,准确率高。

import addressparser as addr


locations = ["徐汇区虹漕路461号58号楼5楼", 
             "泉州市洛江区万安塘西工业区", 
             "朝阳区北苑华贸城"]

df1 = addr.transform(locations)
df1


地址经纬度、省市县级联关系查询

## 查询经纬度信息
addr.latlng[('北京市','北京市','朝阳区')] 
(39.95895316640668, 116.52169489108084)
## 查询含有"鼓楼区"的全部地址
addr.area_map.get_relational_addrs('鼓楼区') 
[('江苏省', '南京市', '鼓楼区'),
 ('江苏省', '徐州市', '鼓楼区'),
 ('福建省', '福州市', '鼓楼区'),
 ('河南省', '开封市', '鼓楼区')]

注:

  • city_map可以用来查询含有某个市的全部地址,

  • province_map可以用来查询含有某个省的全部地址

## 查询含有"江苏省", "鼓楼区"的全部地址
addr.province_area_map.get_relational_addrs(('江苏省', '鼓楼区')) 
[('江苏省', '南京市', '鼓楼区'), ('江苏省', '徐州市', '鼓楼区')]

大批量地址处理

#读取数据
import pandas as pd

df = pd.read_csv("addr.csv")
df.dropna(inplace=True) #去重空地址
df.head()

addr_df = addr.transform(df["原始地址"])
addr_df

合并df 和 addr_df 两个数据

processed = pd.concat([df, addr_df], axis=1)
processed.head()

出处

https://github.com/shibing624/addressparser

精选文章系列视频|Python网络爬虫与文本数据分析
语法最简单的微博通用爬虫weibo_crawler

hiResearch 定义自己的科研首页

大邓github汇总, 觉得有用记得star
multistop ~ 多语言停用词库
Jaal 库 轻松绘制动态社交网络关系图

来自kaggle最佳数据分析实践

B站视频 | Python自动化办公

SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站

bsite库 | 采集B站视频信息、评论数据

texthero包 | 支持dataframe的文本分析包
爬虫实战 | 采集&可视化知乎问题的回答
reticulate包 | 在Rmarkdown中调用Python代码
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
读完本文你就了解什么是文本分析

文本分析在经管领域中的应用概述  
综述:文本分析在市场营销研究中的应用

plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集

漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G  


“分享”和“在看”是更好的支持
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值