如题。
假设数据在data数据框中,列名为"地址"。
#筛选含省份的字段
data[data['地址'].str.match('.+省']['地址'].str.extract('(.+[省])',expand=True)
#去掉省份前特殊字符的样本
data1=data.iloc[:,0].str.replace('.+(号|镇|街|路|乡|道|村|巷|侧|\d|()',‘’)
#去掉字符长度不满足要求的省份
data2=data[np.where(data1.str.len()>2,np.where(data1.str.len()<5,True,False),False)]
#去掉空格
data2=data2.map(str.strip)
#与省份的表做比对,去掉不符合的省份
#用join和原来的表做拼接