python3算法实践 模糊查询 寻找企业名称中字符串最长匹配

  • 项目目标
    已有本地登记数据local-data.xlsx,需从网页填报数据web-data.xls中筛查出未填报的本地数据

  • 数据特征

  1. web-data.xls包含目标列“尾矿库名称”和“企业名称”,local-data.xlsx包含目标列“尾矿库名称”、“所属企业”、“尾矿库\n运行情况”
  2. web-data.xls数据基本格式如下:
尾矿库名称(str) 企业名称(str)
(str) (str)

local-data.xlsx数据基本格式如下:

尾矿库名称(str) 企业名称(str) 尾矿库\n运行情况(str)
(str) (str) 在用/停用/…(str)
  1. web-data.xls的“企业名称”列是“尾矿库名称”列的上级列,即某企业包含某尾矿库,local-data.xlsx的目标列“所属企业”和“尾矿库名称”存在相同关系
  2. 一家企业可包含多个尾矿库,企业名称不允许同名,尾矿库名称不允许同名
  3. web-data.xls应和local-data.xlsx中能匹配的对应条目描述基本一致,即web-data.xls的“尾矿库名称”与local-data.xlsx的“尾矿库名称”对应字符串完全相同或相似,web-data.xls的“企业名称”与local-data.xlsx的“所属企业”对应字符同上
  4. 在网页测试过程中手工填报了一部分条目,未及时删除,与网页发布后填报的数据重复,使web-data.xls中存在同名尾矿库或同名企业,与上文第3点数据特征相违背,此类数据应首先进行筛查处理
  5. local-data.xlsx中“尾矿库\n运行情况”列区分“在用”“停用”等状态,需要从中筛选出状态为“在用”的数据条目
  • 思路原则
    优先匹配尾矿库名称,利用企业名称进行配合比较

  • 解决方案

  1. 筛查处理web-data.xls中存在同名尾矿库或同名企业
  2. 筛选出local-data.xlsx中“尾矿库\n运行情况”为“在用”的数据条目
  3. 处理干净后的web-data.xls和local-data.xlsx的条目进行逐条对比,
  4. 逐条对比中,先删除“尾矿库名称”字符串完全匹配条目,得到第一次对比剩余的web-data和local-data
  5. 第一次对比剩余的web-data和local-data中,删除“企业名称”字
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值