目标:
寻找存有中介代办的欺诈公司.
- 公司名称变量代表了申请人所在公司,主要的风险点存在于:
- 单短时间内大量申请.
- 欺诈性质的公司申请.
这次初步分析,主要是想从海量的公司名称中,找到公司名称存疑,性质高度欺诈的公司名称.
- 从过往的经验看,如果直接使用文本相似度进行匹配,会导致大量的FP,原因是在中文构成的公司名称中,往往最关键的字符仅仅占字符串的10%甚至更低,比如:
- 无监督机器学习有限公司
- 有监督机器学习有限公司
如果以上字符串简单的用文字相似度匹配,相似度会达90%以上,而无监督和有监督有天壤之别.
- 如果简单的使用切词进行切分,根据词频来确定调查,规则优先级,同样会造成大量FP.原因是原生字典并无法有效的区分地域,行业,公司标识这三个重要的特点来对词频的优先级进行分配.
- 所以目前使用的比较初级方法是:
- 获取中国行政区代码,得到准确的地域词库
- 使用词库对公司名称进行清洗,由于个人信息填写很多会有北京,也有北京市,吉林,吉林省,需要先用长string 洗一遍,再用短string洗一遍.
- 第二部完成后,会发现仍有部分较为宽泛的词汇,这里直接分享我目前发现的list,可用于再清洗一字符串.