属性与意图识别_冷启动状态下搜索意图的识别方法与流程

本发明提出一种在搜索系统冷启动阶段识别用户意图的方法,通过定义类别和属性,对业务词元标注,计算业务词元与类别的相似度,使用分词和朴素贝叶斯算法匹配品牌和品类,从而在无用户行为数据的情况下识别搜索意图。
摘要由CSDN通过智能技术生成

d0343d5124bfcbfe3ae960e26d77baac.gif

本发明涉及数据分析的方法,具体讲是冷启动状态下搜索意图的识别方法。

背景技术:

意图识别是一种帮助搜索引擎提高搜索准确度和用户体验的有效方法。目前通常采用的方法是词表穷举法、规则解析法和机器学习方法等。

其中机器学习方法是目前使用最广泛、也是最有效的一种意图识别方法。它是通过挖掘和分析用户的行为日志、埋点数据,然后根据统计分类模型计算出搜索词中关键词对应的意图的概率,最终给出查询的意图。

但是机器学习方法只能适用于已经具备大量用户行为数据的搜索系统,对于刚上线运行的搜索系统就显得无能为力,没有大量用户行为数据的支撑无法对用户搜索的意图进行有效识别。

技术实现要素:

本发明提供了一种冷启动状态下搜索意图的识别方法,以解决搜索系统刚上线运行时,搜索系统还处于冷启动阶段的搜索意图的识别。

本发明冷启动状态下搜索意图的识别方法,包括:

a.定义与各行业分别对应的类别,以及各类别各自对应的类别属性;例如电子产品行业中的其中一种类别为“手机”,其具有的类别属性包括:产品、品牌、类目、型号、材质等。

b.对业务数据库中的业务词元,自动标注每个业务词元所属的多种类别属性,例如业务词元为“小米”所对应的类别属性可以有“品牌”、“材质”等;所述的业务词元即为业务数据库中的业务数据经过分词器切分后产生的各种初始词元,为了能够在搜索系统冷启动阶段与用户搜索词进行对比和匹配。

c.根据各类别的行业标准,计算出与各类别属性相对应的各业务词元与各类别的相似度值,根据所述的相似度值,形成单个业务词元与多个相似类别对应的键-值数据单元,其中键为业务词元,值为该业务词元对应的类别和相似度值;在每个行业中都有各自基本的标准,例如在电商行业中,商品的名称、品牌、价格等这些类别属性的重要程度要高于商品的描述、评论等类别属性。所述的键-值数据单元可以是一张或一组相关联的数据表。

d.根据现有的分词字典中的字典词元对用户输入的搜索词进行匹配和分词,然后根据字典词元已标注的类别属性,从得到的分词中提取出核心词,将核心词与业务词元进行匹配,得到与核心词相同的业务词元,通过所述的键-值数据单元进而得到每个核心词分别对应的类别列表及类别的相似度值,因此,键-值数据单元的数据结构为:业务词元->{类别1:相似度值1;类别2:相似度值2;类别3:相似度值3;};

例如将用户输入的搜索词为“红色小米手机”,则通过现有的字典词元对该搜索词进行分词,得到“红色”、“小米”、“手机”三个分词,再根据这三个分词在字典词元中已标注好的类别属性,分别为“产品属性”、“品牌”、“类别”,因为通常在搜索中匹配和类别是用户主要关心的,因此提取出“小米”和“手机”为核心词。将“小米”和“手机”在业务词元中进行匹配找到相同的词,再用这两个词去键-值数据单元中查询得到这两个词分别对应的类别列表和相似度值。

e.对搜索词的所有分词结果进行搜索,同时将得到的类别列表及类别的相似度值作为搜索条件传递给搜索引擎,搜索结果是在初次排序结果的基础上对各类别的相似度值进行加权,显示时在初次排序的基础上,按类别的相似度值由高到低顺序显示搜索结果。

本发明不用依赖用户行为数据,直接通过对已有的业务词元数据进行分析即可识别出用户的搜索意图,比传统的机器学习方法更简单,不需要分析大量的非结构化数据,也不需要日志数据进行清洗和降噪处理,并且因为本身的数据规模较小,因此也更易于分析和处理。

进一步的,因为用户在搜索时,很大概率会通过品牌名称对商品进行搜索,因此为了获取用户所要搜索的品牌名称,在步骤d中,根据业务词元的类别属性筛选出所有属于品牌类别属性的业务词元,然后将得到的各分词分别通过朴素贝叶斯算法与所有品牌类别属性的业务词元逐一匹配,得到属于品牌名称的分词,即得到了搜索词中对应的品牌名称。朴素贝叶斯算法可以理解为是一个概率分类器,判断每个业务词元与得到的每个分词相同的概率,并以此进行归类。

同时,用户在搜索时,也有很大概率会通过商品的品类来对商品进行搜索,因此为了获取用户所要搜索的品类名称,在步骤d中,根据业务词元的类别属性筛选出所有属于品类类别属性的业务词元,将得到的各分词分别通过朴素贝叶斯算法与所有品类类别属性的业务词元逐一匹配,得到属于品类名称的分词,即得到了搜索词中对应的品类名称。

进一步的,步骤e中,在对所述的各核心词进行搜索的同时,还对搜索词中的非核心词进行搜索,在进行搜索结果排序时,非核心词的搜索结果位于核心词搜索结果之后。

进一步的,步骤d中,如果搜索词没有在业务词元中得到匹配,则根据字典词元和业务规则,筛选出搜索词中的品牌词、品类词和/或产品词中的一个或多个的核心词,使用筛选出的核心词再在业务词元中进行匹配,对未能匹配的核心词进行标记,用于后续的新词识别。

本发明冷启动状态下搜索意图的识别方法,能够在搜索系统刚上线处于冷启动阶段时,不用依赖用户行为数据即可有效识别用户搜索意图,并且不需要大规模繁琐的数据处理过程。

以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。

附图说明

图1为本发明冷启动状态下搜索意图的识别方法的流程图。

具体实施方式

如图1所示本发明冷启动状态下搜索意图的识别方法,包括:

a.定义与各行业分别对应的类别,以及各类别各自对应的类别属性;例如电子产品行业中的其中一种类别为“手机”,其具有的类别属性包括:产品、品牌、类目、型号、材质等。

b.对业务数据库中的现有的业务词元,自动标注每个业务词元所属的多种类别属性,例如业务词元为“小米”,所对应的类别属性可以有“品牌”、“原料”等;业务词元即为业务数据库中初始保存的各种词元,为了能够在搜索系统冷启动阶段与用户搜索词进行对比和匹配。

c.根据各类别的行业标准,计算出与各类别属性相对应的各业务词元与各类别的相似度值,根据所述的相似度值,形成单个业务词元与多个相似类别对应的键-值数据单元,其中键为业务词元,值为该业务词元对应的类别和相似度值。例如,业务词元为“小米”,其对应的类别属性为“品牌”,“品牌”类别属性为“小米”的类别包括有“手机”(相似度值为5.0)、“手机配件”(相似度值为2.3)、“家用电器”(相似度值为2.1)等,因此业务词元为“小米”的键-值数据单元的数据结构为:小米->{手机:5.0;手机配件:2.3;家用电器:2.1;};

在每个行业中都有各自基本的标准,例如在电商行业中,商品的名称、品牌、价格等这些类别属性的重要程度要高于商品的描述、评论等类别属性。所述的键-值数据单元可以是一张或一组相关联的数据表。

d.根据现有的分词字典中的字典词元对用户输入的搜索词进行匹配和分词,然后根据字典词元已标注的类别属性,从得到的分词中提取出核心词,将核心词与业务词元进行匹配,得到与核心词相同的业务词元,通过所述的键-值数据单元进而得到每个核心词分别对应的类别列表及类别的相似度值;例如将用户输入的搜索词为“红色小米手机”,则通过现有的字典词元对该搜索词进行分词,得到“红色”、“小米”、“手机”三个分词,再根据这三个分词在字典词元中已标注好的类别属性,分别为“产品属性”、“品牌”、“类别”,因为通常在搜索中匹配和类别是用户主要关心的,因此提取出“小米”和“手机”为核心词。将“小米”和“手机”在业务词元中进行匹配找到相同的词,再用这两个词去键-值数据单元中查询得到这两个词分别对应的类别列表和相似度值。

由于用户在搜索时,很大概率会通过品牌或品类的名称来对商品进行搜索,因此为了获取用户所要搜索的品牌和品类,根据业务词元的类别属性筛选出所有标注为品牌类别和品类类别的业务词元,将从搜索词中得到的各分词分别通过朴素贝叶斯算法与这些品牌类别和品类类别的业务词元逐一匹配,得到该分词对应的品牌名称或品类名称,将其作为搜索的核心词之一。例如,用户输入的搜索词为“华为huawei畅享10plus超高清全视屏前置悬浮式镜头4800万超广角ai三摄4gb+128gb幻夜黑全网通双4g手机”,经过分词和相似度值赋值后,得到其中的核心词为“华为、huawei、畅享10plus、手机、全网通、4g”,其余的为非核心词;其中“华为”在类别属性中属于品牌,“手机”在类别属性中属于品类。

根据字典词元和业务规则,筛选出搜索词中的品牌词、品类词和/或产品词中的一个或多个的核心词,使用筛选出的核心词再在业务词元中进行匹配,对未能匹配的核心词进行标记,用于后续的新词识别。

e.对搜索词的所有分词结果进行搜索,同时将得到的类别列表及类别的相似度值作为搜索条件传递给搜索引擎,搜索结果是在初次排序结果的基础上对各类别的相似度值进行加权,显示时在初次排序的基础上,按类别的相似度值由高到低顺序显示搜索结果,并且非核心词的搜索结果位于核心词的搜索结果之后。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值