文本处理——DATAFRAME字段相似匹配python代码

linph174

于 2024-01-23 11:57:07 发布

阅读量500

点赞数 8

分类专栏： python 文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/linph174/article/details/135768148

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

import pandas as pd
from fuzzywuzzy import process

# 示例数据
data1 = pro_R['楼盘（项目）名']
data2 = pro_G['备案名']

# 转换为DataFrame
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 进行模糊匹配
BA_matches = []

for index1, row1 in df1.iterrows():
    match, score, _ = process.extractOne(row1['楼盘（项目）名'], df2['备案名'])
    if score > 80:  # 设置相似度阈值
        BA_matches.append({"R系统项目名": row1['楼盘（项目）名'], "项目备案名": match, "相似度分数": score})

# 输出匹配结果列表
print(BA_matches)

import pandas as pd



# 创建DataFrame
df_matches_BA = pd.DataFrame(BA_matches)

# 打印结果
print(df_matches_BA)

# 输出结果
df_matches_BA.to_excel( 'C:\\Users\\   .xlsx')