地址相似度计算

本文介绍了两种计算地址相似度的方法:一是使用GeocodingCHN模块进行地址标准化和余弦相似性比较;二是通过文本相似度,利用jieba分词、doc2bow、TF-IDF模型来计算地址的相似度。
摘要由CSDN通过智能技术生成

方法一:

使用地址标准化模块GeocodingCHN

  • 该模块可以对地址进行标准化重构,也可对行政省市进行补齐(如果未写区县则无法补齐区县)
  • 做相似性比较时会先对地址进行标准化转换,转换后对其进行对比,对比时实际使用余弦相似性来计算相似度。

实现如下:

import pandas as pd
import numpy as np 
from GeocodingCHN import Geocoding

#读入数据df

#格式化函数
def addr_format(addr):
    address_nor = Geocoding.normalizing(addr)
    return address_nor

#相似度计算函数
def addr_similar(text1,text2):
    Address_1 = Geocoding.normalizing(text1)
    Address_2 = Geocoding.normalizing(text2)
    if type(Address_1) == Geocoding.Address and type(Address_2) == Geocoding.Address:
        similar = Geocoding.similarityWithResult(Address_1, Address_2)
        return similar
    else:
        return 0

def ex_similar(df):
    sim = addr_similar(df['addr1'],df['addr2'])
    return sim

def ex_format1(df):
    ex = ad
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值