-
项目目标:
已有本地登记数据local-data.xlsx,需从网页填报数据web-data.xls中筛查出未填报的本地数据 -
数据特征:
- web-data.xls包含目标列“尾矿库名称”和“企业名称”,local-data.xlsx包含目标列“尾矿库名称”、“所属企业”、“尾矿库\n运行情况”
- web-data.xls数据基本格式如下:
尾矿库名称(str) | 企业名称(str) |
---|---|
(str) | (str) |
local-data.xlsx数据基本格式如下:
尾矿库名称(str) | 企业名称(str) | 尾矿库\n运行情况(str) |
---|---|---|
(str) | (str) | 在用/停用/…(str) |
- web-data.xls的“企业名称”列是“尾矿库名称”列的上级列,即某企业包含某尾矿库,local-data.xlsx的目标列“所属企业”和“尾矿库名称”存在相同关系
- 一家企业可包含多个尾矿库,企业名称不允许同名,尾矿库名称不允许同名
- web-data.xls应和local-data.xlsx中能匹配的对应条目描述基本一致,即web-data.xls的“尾矿库名称”与local-data.xlsx的“尾矿库名称”对应字符串完全相同或相似,web-data.xls的“企业名称”与local-data.xlsx的“所属企业”对应字符同上
- 在网页测试过程中手工填报了一部分条目,未及时删除,与网页发布后填报的数据重复,使web-data.xls中存在同名尾矿库或同名企业,与上文第3点数据特征相违背,此类数据应首先进行筛查处理
- local-data.xlsx中“尾矿库\n运行情况”列区分“在用”“停用”等状态,需要从中筛选出状态为“在用”的数据条目
-
思路原则:
优先匹配尾矿库名称,利用企业名称进行配合比较 -
解决方案:
- 筛查处理web-data.xls中存在同名尾矿库或同名企业
- 筛选出local-data.xlsx中“尾矿库\n运行情况”为“在用”的数据条目
- 处理干净后的web-data.xls和local-data.xlsx的条目进行逐条对比,
- 逐条对比中,先删除“尾矿库名称”字符串完全匹配条目,得到第一次对比剩余的web-data和local-data
- 第一次对比剩余的web-data和local-data中,删除“企业名称”字