left join 模糊匹配_公司地址模糊匹配(初级

本文探讨了在处理公司名称模糊匹配时遇到的问题,如文本相似度导致的误报和切词不当的问题。通过获取行政区划代码建立地域词库,并进行两阶段清洗,结合业务规则识别可能的中介或欺诈公司。尽管仍需人工审核,但这种方法已显著优于直接切词和相似度计算。
摘要由CSDN通过智能技术生成

目标:

寻找存有中介代办的欺诈公司.
  • 公司名称变量代表了申请人所在公司,主要的风险点存在于:
    • 单短时间内大量申请.
    • 欺诈性质的公司申请.

这次初步分析,主要是想从海量的公司名称中,找到公司名称存疑,性质高度欺诈的公司名称.

  • 过往的经验看,如果直接使用文本相似度进行匹配,会导致大量的FP,原因是在中文构成的公司名称中,往往最关键的字符仅仅占字符串的10%甚至更低,比如:
    • 无监督机器学习有限公司
    • 有监督机器学习有限公司

如果以上字符串简单的用文字相似度匹配,相似度会达90%以上,而无监督和有监督有天壤之别.

  • 如果简单的使用切词进行切分,根据词频来确定调查,规则优先级,同样会造成大量FP.原因是原生字典并无法有效的区分地域,行业,公司标识这三个重要的特点来对词频的优先级进行分配.
  • 所以目前使用的比较初级方法是:
  1. 获取中国行政区代码,得到准确的地域词库
  2. 使用词库对公司名称进行清洗,由于个人信息填写很多会有北京,也有北京市吉林吉林省,需要先用长string 洗一遍,再用短string洗一遍.
  3. 第二部完成后,会发现仍有部分较为宽泛的词汇,这里直接分享我目前发现的list,可用于再清洗一字符串.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值