去爬一份联行号的数据,或者找对接的银行要一个(他们肯定有,要申请提数,只是版本他们更新了,不会通知咱们),这都可以,但是15w的数据,放数据库里面有几个问题
- 用户输入查询的关键字不规范,可能有简写,可能有错别字
- 需要分词
- 不规范带来一个问题,就是同义词
银行肯定不断新增的(可能也有不断关门的,这个就不清楚构造了),而且不同机构覆盖的银行是不一致的,比如票交所只认9w个(可以去官网下载),
其他机构承认的正式标准的,我也不晓得哪里有,呼吁人行或者金融办等官网提供下载
我的想法是用Elasticsearch
这个东西jar包麻烦,而且不同版本的语法可能不一致,需要注意
银行的总行名称抓出来进行分词
这个百十来个,应该也容易
同义词列出来
- 比如工行,工商银行,中国工商银行,中国工商银行股份有限公司 这都是同义词
- 总有漏网之鱼,尤其ocr识别出来很多莫名其妙的,能加同义词的再不发生歧义的情况下,要加上同义词
打标签
- 来源
- 是否是票交所等
- 国股,大商,城商,三农,村镇,财务公司,港澳台,外资