一、背景
1:N图片比对(人脸比对,车辆比对)为通用场景,但当N特别大时,如上千万,单服务多线程处理模式速度太慢,需要改造成分布式多服务并发执行,这样不仅能提高速度,扩展性也好。
二、整体思路
1、增加任务调度服务,任务调度服务主要分任务拆分和任务合并两个功能。
2、任务调度收到业务平台的1:N识别命令,先根据过滤条件分批从hbase取所有图片的唯一id列表保存到本地文件,然后读文件按批次将图片的id列表分发给Kafka,如一次分发1W条。
3、多个解析服务从Kafka取子任务的uid列表,然后从数据库取到对应的图片特征码,进行相似度比对,执行完子任务将图片相似度满足条件的结果发给Kafka。
4、任务调度监听kafaka中消息,发现主任务的所有子任务都执行完,从redis取数据做数据合并,并将调用业务平台回调接口通知到业务平台,子任务没有全部完成,就将子任务的数据合并压入redis。业务平台收到通知将比对结果数据做进一步业务处理。