搜广推
文章平均质量分 87
水的精神
一件事,要么不做,要么做到极致。
展开
-
使用模型来做召回和排序
文本检索任务可以定义为: 给定一个文档集合,用户输入一个query来表达信息检索需求,借助于一个文本检索系统返回相关文档给用户。日常生活中,我们几乎天天都在用文本检索系统,比如谷歌、百度搜索,淘宝电商搜索,搜索系统已经成为用户获取信息的一个重要入口。对于文本检索任务,抽象出来的核心目标就是怎么去计算用户输入的 query和文档集合中每个doc的文本相似度。原创 2024-05-23 13:27:53 · 794 阅读 · 0 评论 -
关于搜索引擎链路
搜索引擎的工作流程包括爬虫抓取网页内容、索引处理、查询处理、检索与排名以及结果呈现。在查询处理阶段,搜索引擎需进行多个步骤来优化搜索效果。首先是分词,将查询词分解为独立词汇单元。接着是词权重判别,识别查询中的关键和非关键部分。然后进行类目识别与分类,以提高检索准确性。意图识别也是关键步骤,通过识别查询中的时效性和地域性意图,提升搜索结果的相关性。查询词改写和纠错则帮助改进用户输入,增强搜索匹配度。召回阶段包括关键词召回(如BM25)和语义召回(如DSSM双塔模型),用于匹配相关文档。最后,通过排序模型对召回原创 2024-05-20 00:14:40 · 991 阅读 · 0 评论 -
一点搜广推的小知识
搜广推,解决的核心问题是信息过载,在海量的数据中,信息中做大海捞针的事情。我自己的真是感受,搜索要分为不同的领域。电商、视频、内容搜索是完全不同的,它们的特征差异很大。知识搜索(或者说问答搜索)又是完全区别于电商和视频的。知识搜索更加关注的是对或者不对,又或者说有或者没有。推荐和搜索的思路是相近的。都是召回,粗排,精排,重拍。通常从粗排就开始使用一些模型了。而模型通常更多的是需要特征的构建。原创 2024-05-19 22:34:51 · 303 阅读 · 0 评论