1,防书籍重复入库,反作品抄袭;
A,SimHash特征,计算海明距离,相对于标准向量计算余弦距离计算量小;
B,基于Elastic Search的书库存量章节关键段落检索;
C,基于Faiss的竞品章节向量检索;
D,基于IP代理后的爬虫对百度搜索结果进行检索,并计算相似度;
2,资金结算平台沙箱环境,变更可回溯性追踪;
背景:出现过这样的Case:在生产环境进行试算,并将试算数据发布出去;
A,隔离环境细节。沙箱环境ECS服务器,ECS配置对DB的隔离访问策略,服务Init感知环境并判断链接正确性;
B,数据同步?从线上全库同步数据;
C,验证过程?沙箱环境部署代码,跑结算任务,并根据结果进行判定;
3,章节阅读故障问题闭环自动修复;
背景:章节上架链路冗长,链路中数据冗余,领域模型定义不清晰,状态含义不明确,服务调用没考虑最终一致性,流程在链路中某些节点中断的情况;
A,端上对章节阅读故障上报事情,Kafka原始日志—>Flink日志清洗—>Kafka阅读故障,监听消息并触发章节重新上架流程;客诉量下降95%+;
B,服务领域拆分,领域模型重新定义,状态码含义定义,