自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 深入理解搜索引擎——搜索引擎和推荐系统那些事

在《深入理解搜索引擎——开篇》一文中,有讲解过搜索引擎的发展历程,随着大数据和人工智能的发展,人们已经进入到信息过载的时代。在这个海量数据的时代,内容消费者很难通过传统的搜索引擎找到自己感兴趣的内容,而内容生产者也很难让自己的信息脱颖而出,受到广大用户的关注,从而诞生了个性化搜索来解决这一矛盾。提到个性化就不得不提推荐系统了,个性化搜索其实是将搜索引擎和推荐系统进行结合,所以今天咱们就来聊聊搜索引擎和推荐系统那些事。一、架构层面搜索引擎从过程上分为爬虫、索引、query理解、召回和排

2021-07-15 09:21:34 1276

原创 深入理解搜索引擎——大厂的赚钱利器《计算广告》

这个时代,大数据与人工智能已经占据了你生活的每一个角落,你上微信、逛淘宝、刷抖音,每一次的点击行为都在给人工智能算法补充用户数据,而大厂们使用这些数据美其名曰为你提供更精准的服务,但其实是更精准的割你韭菜,赚你的钱。很多人会说,我刷抖音都没交过钱,它怎么赚我钱?这里就涉及到计算广告了,因为推得越精准,你停留的时间就越长,抖音赚的则是你所看的视频的生产者给的广告费,也许未来你所看到的每一条视频其实都是广告。如淘宝,最赚钱的不是淘宝部门,而是阿里妈妈智能营销广告部门。这就是计算广告带来的价值。.

2021-06-23 08:36:36 616 1

原创 深入理解搜索引擎——基于DPSR的个性化召回模型

DPSR是京东发表于SIGIR2020 的paper,是京东在搜索推荐系统领域的实践经验总结,京东自2019年起就开始部署DPSR搜索推荐系统框架,总体网络结构如下:从整体看,离线模型是一个双塔模型结构,query 和 item 分别有一个 model tower。Query 端:包括query tokens、user profile、user history events 等特征。item端:包括title tokens、brand、category、shopid 等特征。离线索引(offline

2021-06-22 09:27:16 660

原创 深入理解搜索引擎——基于语义检索LSTM-DSSM召回模型

​众所周知,BM25算法是Elasticsearch全文检索引擎默认相似度算法,但此种算法仅考虑了文本Term之间的匹配关系,并未考虑文本语义之间的信息,所以导致很多场景下,语义相关的内容无法召回。随着深度学习在NLP的广泛应用,在IR和QA(问答系统)中出现了很多深度模型将query和doc通过神经网络embedding,映射到一个稠密空间的向量表示,然后再计算其是否相关,并取得很好的效果,而本文就来介绍一种基于语义检索的召回模型LSTM-DSSM。【DSSM】DSSM是Deep Structur

2021-06-21 20:46:39 3991

原创 汪峰,上不了头条是有原因——解密百度搜索突发时效性事件处理

​你有没有想过,搜索引擎是如何处理那些突发性事件的?很多时候,当我们发现了一个热点,百度永远都是比我们更快的知道,并且已经带上了事件特征,比如某位明星突然去世,对应的百度百科会变成暗色调。按照搜索场景来区分,时效性其实可以分为突发时效性、泛时效性和周期时效性。突发时效性:就如上面说的紧急突发的事件,时效性需求是突然出现的,比如突发新闻、热门话题、热门资源等。持续性时效性:是指事件本身具有实时更新的特征或者事件的发生时间具有不确定性,这些类型的事件所引起的用户的时效性需求统称为持续性时效性需求,用

2021-06-21 19:37:59 380

原创 tf.decode_csv() error: “Unquoted fields cannot have quotes/CRLFs inside”

一、背景今天基于TensorFlow跑DNN,报了一个异常InvalidArgumentError (see above for traceback): Unquoted fields cannot have quotes/CRLFs inside”,在decode csv文件的时候报上面这个错,中文解释是“未加引号的字段中不能包含引号/ CRLF”,异常如下:二、解决1.处理引号本实验中DNN的训练集是将各个特征通过’\t’进行拼接,通过异常显示应该是字符串中有引号,导致在decode的时候无法

2021-06-12 14:24:19 535

原创 Solr与Elasticsearch:开源搜索引擎到底如何选择?

随着互联网行业的发展,搜索引擎已经深入到各行各业,已经是众多内容平台必不可少的功能。在实际业务中,当搜索的速度,性能和高可用性是核心要求时,对TB和PB的数据执行搜索可能会遇到挑战,此时就需要用到分布式全文检索。了解过搜索引擎的应该清楚,目前最热门的两款开源的搜索引擎,Solr和Elasticsearch都是非常不错的选择,但这两者应该如何选?是搜索新手面临的第一大问题。它们都基于Apache Lucene构建,因此它们支持的功能非常相似。但是,它们在部署,可伸缩性,查询语言和许多其他功能方面有很大不同。

2021-06-10 09:46:22 555

原创 基于中文的搜索拼写纠错,大厂是如何实现的?

中文拼写检查一直以来都是研究中的难题,目前主要采用的是基于规则的方法和基于统计的方法,此外再增加人工校验的方式来提升效果。基于规则的方法思想简单、易于实现,但是由于不能覆盖所有的错误现象,因而其查错纠错的能力极其有限。基于统计的方法主要使用基于N元语法模型(N-Gram)的查询纠错技术,N-gram的优点是对在训练集测试集同分布的要求比较低、解释性强、原理清晰,但是对语料数目要求则非常高,而且无法利用好词语在句子中的上下文环境,不能捕获长距离的依赖。那么如何更好的实现中文拼写纠错呢?本方案主要

2021-06-07 09:30:30 900

原创 美团搜索——基于用户Session的Query改写

美团的搜索引擎主要是对店铺的主店名称,分店名称,地址,推荐菜,商品等进行分词,然后进行倒排索引。用户在搜索时会使用不同的Query去找到想要的结果,但用户的query与索引的内容可能存在差异导致无法召回,比如用户在搜索“早餐”,那"一品粥铺"、"永和豆浆"这些肯定出不来,这样会流失掉很多用户需求。那美团是怎么实现的呢?我们今天就来讲讲美团的Query改写算法。在搜索引擎领域,用户Session是指用户在同一个时间段的连续操作,可以基于用户Session构建Session Embedding,针对同一个S

2021-06-01 16:23:32 1170

原创 深入理解搜索引擎——搜索技巧

搜索引擎发展至今已经覆盖了各个行业,无论在什么领域,我相信大家想要了解某个事物、或找到某个问题答案,都会使用到搜索引擎这个工具,越来越多的人每天都在使用搜索引擎,但又有多少人能用好搜索引擎呢?在我们学习新东西的时候,尤其是很多毕业生一出来非常懵懂的时候,遇到问题就喜欢请教别人,也许对方可以给你解答,但你没有任何思考,别人说的东西你也不一定听得懂,效率及其低下。所以这里建议,要学会问问题,怎么问?当然是带着思考去问问题,在职场尤其重要。自己先搜索答案,把能了解的信息全部掌握到,并进行总结,如果还未解决再请

2021-05-28 09:23:55 644

原创 深入理解搜索引擎——搜索评价指标

    搜索引擎,在做好query理解、索引召回以及排序模型之后,就能直接推上线了吗?答案是否定的,还需对其性能和质量进行评测。性能无非是对时间和空间的运行效率作评测,不细讲,今天讲讲搜索引擎的质量评测。通过质量评测,可根据评测结果不断的进行改进和研究,也可以验证搜索引擎在真实环境中运行时的实际效果。因此,搜索引擎的质量评测对于整个系统的研制和发展是至关重要的。    那么有哪些指标可以评估搜索引擎的结果质量呢?最广为人知的

2021-05-19 09:05:51 3487

原创 深入理解搜索引擎-排序算法

​众所周知,在搜索引擎领域,无论你是用户还是内容生产者,搜索引擎的结果排序对你来说都是至关重要的。对于用户而言,一个好的排序会给你一个非常好的搜索体感,你无需查看更多结果就能找到你的答案。对于内容生产者而言,无论是大搜还是垂搜,排序结果的好坏直接影响你内容的流量和点击。调查显示,搜索引擎结果的点击主要集中在top10的结果中, 可以参考下图:从上图可看到,第一页top10的总点击率是57%,也就是说43%的用户要么往后面翻页,要么什么也没点击。这也是为什么企业争相做SEO的原因,这也是为什么会衍生出搜索

2021-05-07 09:33:54 3746

原创 深入理解搜索引擎-搜索召回

​你有没有想过,当我们在搜索框中输入关键词时,搜索引擎是如何确定返回哪些内容给你的?搜索引擎底层有一个巨大的索引库,返回的搜索结果跟你输入的关键词又有什么关系?今天我们就来讲讲搜索引擎中的召回。召回是根据输入的query,能够高效的获取query相关的候选doc集合的过程。相关的doc如果不能被被召回,即使后面的粗排、精排做的再好也是徒劳无功。所以召回对于搜索引擎是非常重要的,决定了搜索引擎质量的上限。本文主要讲解两类召回算法,包含基于词的传统召回和基于向量的语义召回。基于词的传统召回基于词的召回.

2021-04-26 09:13:04 4375

原创 深入理解搜索引擎——索引技术解读

    当你在搜索引擎的搜索框中输入你想查找的关键词后,首先影响你体验的并非是不相关的搜索结果,而是界面出现“loading”、“服务正在加载中”、“搜索响应失败”等字眼。据统计,搜索页面的加载时间会严重影响用户的搜索体验,进而丢失掉优质用户。如下图:    从图中可发现,搜索加载超过1s就会直接影响页面放弃率,1s是用户的观感界限,所以搜索引擎的响应时间是需要着重优化的。然而无论是大搜还是垂搜,随着大数据时代的发展,被查询

2021-04-25 21:05:51 936

原创 深入理解搜索引擎——详解query理解

【导语】当你在搜索框输入一串简短的文本后,搜索引擎立马会返回成千上万条结果,整个搜索过程看似简单,其实底层引擎大有文章。每一个简短的搜索词背后都隐藏着用户最真实的查询意图,需要搜索引擎使用很多不同策略去挖掘用户背后的需求,这就涉及到“搜索query理解”。我们此前讲过《初识query理解》,再来复习一下总体流程:当用户输入query:“P i g n g u o 的生產地。”在以上每个模块具体是怎么处理的?01 文本预处理大小写转换:query会转为“p i g n g u o 的生產地。”全半

2021-04-23 08:59:08 3119

原创 深入理解搜索引擎——初识query理解

当你在搜索框输入一串简短的文本后,搜索引擎立马会返回成千上万条结果,整个搜索过程看似简单,其实底层引擎大有文章。每一个简短的搜索词背后都隐藏着用户最真实的查询意图,这就需要搜索引擎使用很多不同策略去挖掘用户背后的需求,这就涉及到“搜索query理解”。从上一篇文章《药老算法:深入理解搜索引擎——开篇》有讲到过,整个搜索引擎的过程是从用户输入、query理解、检索召回到最后的精排序。每一个过程都会影响最终的搜索准确度以及用户体验,所以在搜索引擎中任何环节都需要精细的打磨,不同场景的搜索引擎,由于用户需求以.

2021-04-21 09:36:51 1270

原创 深入理解搜索引擎——开篇

什么是搜索引擎?搜索引擎,一般分为大搜和垂搜,其中大搜包含我们熟知的google、baidu、搜狗、神马及近期比较活跃的夸克,垂搜包含各领域门户网站的搜索引擎,例如电商搜索(淘宝、天猫、京东及拼多多等等)、本地生活搜索(美团、饿了么及盒马搜索)、资讯、视频搜索(头条、抖音、微博搜索)等。从20世纪90年代初期发展至今,搜索引擎已经充斥到了生活中各个场景,目前发展为每个人离不开的重要工具,那么搜索引擎经历哪些发展过程?涉及了哪些技术?有哪几个核心问题?又是如何评价一个搜索引擎好坏的?我们今天就来系统的梳.

2021-04-20 09:27:37 1249

mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

与solr4.8匹配的mmseg4j分词器的版本系列jar包

2016-01-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除