搜索
文章平均质量分 82
TURING.DT
科技改变世界,技术改变人生。
展开
-
意图识别和纠错问题
可想而知,错误的意图识别会带来多大的负面影响。基于词典,就是对用户query内容和词典内容进行比对,比较常见的方式是序列标注问题里用的最大逆向匹配,通过这种方式找到词典里的实体词,匹配触发了自然就有意图了,而在词典匹配的时候,不是使用链表之类的来构造匹配结构,而是使用搜索树的结构,这种匹配的复杂度最低,速度也快,两者结合,其速度甚至比很多模型要快得多(基本上1ms以内就能完成),fasttext速度非常快,但是textcnn之类的其实就已经达到ms级别以上,bert甚至在10ms级别。原创 2024-08-14 18:55:17 · 673 阅读 · 0 评论 -
浅谈搜索业务常见数据指标
搭建指标体系的方法论有很多,本期我们会结合GSM、OSM方法的理念来梳理指标,再结合搜索核心关注的分析维度,搭建出搜索指标体系。针对不同的使用对象,可以抽取设计出不同的数据产品以满足需求。原创 2024-08-13 09:10:49 · 933 阅读 · 0 评论 -
电商搜索停止词库(stopwords)
在中文网站里面其实也存在大量的stop word,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。停止词,是由英文单词:stop word翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索 引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。原创 2024-08-08 09:25:38 · 284 阅读 · 0 评论 -
电商违禁词&禁用词
最佳、最娇嫩、最低、顶级、顶级、防敏、首选;活化肌肤、最感兴趣、最具有发展前景、最贴心 最为完善、最佳 最舒适、顶尖、第一、最大 最新、最先进、独一无二、独有、最新、最严格、极至、最好的、最环保、最佳;促进血液循环、最近、最新鲜、最安全、最省力、最优质、第一线、最接近、最逼真、最满意、最简洁 最明朗 最低、最严谨、之首、独创、最重要、最佳、最高、天猫、首发、最自然、最好 最舒适、最重要、最小值、最高、最实用、首家、防止宝宝皮肤过敏、最高、最科学、最前沿、最轻便、**之王、最具活力、最喜欢、最完美。原创 2024-08-08 09:19:26 · 1095 阅读 · 0 评论 -
电商搜索同义词库(synonyms)
目前整理了一些搜索电商商品的同义词样例, 以提供搜索功能参考使用。T-shirt,T恤,Tshirt,T。儿童,婴儿,幼儿,婴幼儿,初生儿。挂表,钟,大表,表,闹钟,钟表。牛仔短裤=>牛仔裤,牛仔短裤。橙色,橘色,桔色,桔,橘,橙。晾衣架,衣服架,衣架,晒衣架。拉杆箱=>箱,箱包,拉杆箱。商务装,正装,西装,西服。皮夹=>包,皮包,皮夹。皮箱=>箱,箱包,皮箱。条纹,横条,竖条,花纹。外衣,外套,外褂,褂子。男袜,男士袜,男士袜子。女袜,女士袜,女士袜子。洗脚盆,足疗机,足浴盆。骑士靴=>靴,骑士靴。原创 2024-08-07 17:28:04 · 246 阅读 · 0 评论 -
推荐系统与搜索系统架构
这就是其中一个模型的打分逻辑,有多模型打分融合的精排层,会将多个模型的分数进行打分,每个模型的重要性不一样,因此分数都会有权重,将每个模型的分数进行权重计算后相乘在一起,就是这个item的排序分数,每个item按照分数进行从高到底排序,就会得到精排打分列表。推荐的本质是需要留住用户在APP中,让用户使用的时间变长,并且第二天也能留住用户,逐渐产生广告收益和其他收益,让用户消费更多,需要通过分析用户的历史行为以及当前的实时行为场景等,推荐系统自发生成查询条件快速给出推荐列表的行为,是一种无声的搜索。原创 2024-08-05 18:25:58 · 1067 阅读 · 0 评论 -
搭建用户搜索指标体系
用户类指标:搜索人均类指标以及搜索的新增、活跃等指标都能反应搜索用户的使用情况,通过人均类指标能够反应搜索对于用户的渗透情况、新增活跃指标更是很直观的反馈用户对于搜索功能的体验,是否能满足用户获取信息的需求,而留存类指标则体现出搜索功能是否给用户感受到良好的使用体验,当搜索功能有优化升级时这些指标都能及时的反馈优化效果。流量类指标:搜索DAU、搜索时长、搜索次数、搜索PV、搜索UV等,这些是能够反应搜索流量的核心指标,也是最直观能够反应用户使用搜索功能的情况,适用于日常的大盘监控分析。原创 2024-08-01 14:58:59 · 756 阅读 · 0 评论 -
3步阐述搜索框做了什么事情
搜索功能是几乎每个产品的通用标配功能,一个看似简单的搜索框背后,其实隐含了大量的设计思考和技术壁垒。本文将从三个部分阐述,为何搜索框并不简单。本文将从搜索场景的思考、基于步骤的搜索设计以及搜索数据的追踪3个部分,对产品内部搜索设计的主要思路和常见的搜索规则做个简单的分享。原创 2024-07-31 19:48:20 · 879 阅读 · 0 评论 -
搜索功能发现及定位问题
可以从搜索链路视角(「query 处理」->「意图理解」->「召回曝光点击」)来甄别是哪个环节出了问题;也可以从流量行为视角来看是哪部分用户搜索出了问题;也可以从用户其他行为辅助你识别用户到底要什么原创 2024-07-25 13:59:02 · 222 阅读 · 0 评论 -
浅谈搜索指标&业务辅助应用
对于生鲜类电商,很多商品都不适合大量囤货,不然会造成商品的大量损耗。CTR和CVR并不是完全正相关的,很多SKU的CTR很高,但是CVR很低,比如一些标题夸张主图奇特的商品,用户可能会被商品的标题和主图等吸引产生点击,但是最终是否下单用户还是会根据自己的实际需求进行综合考虑的。但实际在业务开展的时候,负责搜索引擎的部门背的核心KPI就是搜索引擎的CTR、CVR和PGMV这三个指标,上述其他指标更多是作为辅助指标来进行综合评估,并不会列为部门的KPI,其他指标在业务上反映的价值并没有那么重要和直观。原创 2024-07-19 16:44:07 · 1088 阅读 · 0 评论 -
浅谈电商搜索数据指标体系建设
发现式搜索是来APP前没有购买目标,在站内展示的内容驱动下比如推荐&活动等,发现商品从注意到兴趣,激发非计划式需求,从数据上定义就是进站后30s后才去搜索。在此抛砖引玉,希望对感兴趣的同学有所启发。如果某一个场域用户访问率&销售占比高,则代表这个场域流量&创造的价值越大,有上表可知,搜索是其中最重要的场域,将精力投入到“搜索”的ROI是较高的。运营+产品角色,影响搜索GMV的关键要素是:用户进入搜索框之后,一系列的功能引导&利益点传递等,核心作用是更好的用户流程体验(不要有卡点)原创 2024-07-17 18:31:29 · 362 阅读 · 0 评论 -
电商搜索入门
但是对短文本的提取,特别是字符小于10的文本提取关键词,行业上也没有比较好的解决办法,从目前的测试数据来看,TF-IDF算法比较好一些。商品经过分词搜索,再经过权重模型计算排序后,就会展示在前端给客户查看,但是系统查询的结果不一定就百分百是用户想要的,所以用户可以自己根据一定的规则再次进行筛选新排序,最终找到自己的想要搜索结果。当用户输入查询关键词时,也有可能输入了和关键词意思相近的词语,比如用户本来想要输入"三体",但实际却输入成"3体",这个时候系统就会将"3体"转换为"三体",再进行下一步处理。原创 2023-02-28 17:07:45 · 2275 阅读 · 0 评论 -
搜索产品业务理解
在信息获取方式上,当用户在没有明确诉求场景下会逛信息流,当用户有明确诉求时则使用搜索做信息获取。今天我带大家简单了解一下搜索产品的基本知识,并介绍搜索场景的核心指标体系。01 产品视角的搜索 搜索入口:即输入框,典型入口位置有首页顶部搜索框。是用户发起搜索的窗口。 搜索前:即搜索起始页,这个页面一般有两个产品定位:扩认知(比如点评搜索起始的发现模块,主要是推荐一些平台强运营的关键词,建立用户点评可以搜索商户以外内容的认知)。提效率(比如历史搜索关键词)。 搜索中:...原创 2021-12-10 15:10:25 · 2905 阅读 · 0 评论