1.任务描述
之前在做疾病相似度匹配的时候,堪称史诗级难题,虽然最后加上规则以及一些nlp模型,取得了差强人意的效果,但是短文本的语义相似度匹配一直属于比较难以攻克的难题
2.思路
随着近年大模型的飞速发展,就之前所做的任务给出以下新思路:
模型分为两条通路:语义相似度和字形相似度
语义相似度解决问题:卵巢子宫内膜异位囊肿和巧克力囊肿,其实本质一样,语义应该是一致的,但是通过字形难以解决;
字形相似度解决问题:由于很多疾病中的特殊字符在BERT和LLMs中没有相应的向量表示,所以这部分通过字形相似度来rank,作为辅助手段;
代码后续我会慢慢公开,欢迎大家来讨论。