优秀的设计思想
文章平均质量分 79
水的精神
一件事,要么不做,要么做到极致。
展开
-
密集检索:我们应该使用什么样的检索粒度?(如何提升召回率)
本文探讨了不同检索粒度在密集检索和下游任务中的性能影响,并重点介绍了新提出的命题检索单位。通过实证比较,发现基于命题的检索在密集检索中显著优于传统的句子检索单位,并可显著提高下游问答任务的性能。命题检索单位具有精确性、简洁性、可扩展性和交互性等优点。相较于常用的段落或句子检索,命题作为原子级信息载体,以其简洁、自包含的特性,能够更精准地提炼文本中的关键事实信息。通过在多个开放领域问答数据集上对比不同检索粒度下的检索模型性能,实验结果显示命题检索在提高检索召回率和下游问答任务准确度方面均优于传统方法。原创 2024-01-10 13:41:25 · 1351 阅读 · 0 评论 -
模型能力赋能搜索——零样本分类(Zero-Shot Classification)在搜索意图识别上的探索
从测试用例来看,Zero-Shot Classification分类效果还是很不错的。可以使用该模型,进行问题意图识别的。因为搜索框,对话框,被传进来的内容类型是未知的。但是不同类型的问题,去到不同的分支上,Zero-Sh效果一定是最好的。就像上边的测试案例。通过模型,可以推测出来,输入框的内容到底是什么意图,是总结任务?还是摘要任务?还是问答任务?在模型中,我们只需要去定义已知的和能够处理的分支即可。轻松利用模型的能力,来做意图识别。当然这是一个初步的探索。想要获得更好的效果,还会要进行模型调优的。原创 2023-12-09 12:33:16 · 1165 阅读 · 0 评论 -
美团 Elasticsearch 特定场景内核级改造优化分享
跟我一起学习,美团是如何对ES内核的 倒排链构建和合并做优化的。美团将构建倒排倒排链的过程提升了60倍,将倒排链合并的过程合提升了百倍。 这对搜索很多个关键词的场景,提供了一个内核改造的思路。 .原创 2023-04-01 10:53:56 · 769 阅读 · 0 评论 -
整理一些比较好的计算机设计理念
就目前掌握的一些数据库技术,包括elasticsearch, clinkhouse, Hbase。甚至包括具有非常高的吞吐量的消息中间件kafka。它门之所以有超高的性能。都和这些设计有一定关系。LSM ——一种提供优越的吞吐量的设计理念写在前边:LSM设计,可以为我们提供极高的写入能力。这个最认识这个设计的是在学习clinkhouse的时候,文档中有写为何clinkhouse能够提供极高的写入能力。后来再想一下es也是用的这种理念来维护数据。再到后来学习了海量数据的存储以后,知道其...原创 2022-02-15 01:11:06 · 1533 阅读 · 0 评论