搜索词扩展实战

最新推荐文章于 2024-05-04 15:57:19 发布

置顶冲啊_算法工程师

最新推荐文章于 2024-05-04 15:57:19 发布

阅读量1.4k

点赞数 1

文章标签：人工智能大数据机器学习自然语言处理 python

本文链接：https://blog.csdn.net/weixin_40868834/article/details/105227163

版权

搜索词扩展实战

实战中使用到的搜索词扩展方法
结论
思考

实战中使用到的搜索词扩展方法

我们做这个任务的目的是为了售卖搜索词包，因此我们本身就有一个完整的搜索词包，搜索词包中的搜索词都是规则的，不存在用户杂七杂八的搜索关键词。

word2vec词向量相关性方法

对源站上的文本先进行分词，特别是搜索词包中的关键词要预先加入分词辞典，将文章中的那些关键词进行正确的分词。得到分词后的文本后进行语言模型词向量学习，将文章中的每个词都进行向量化。
提取出搜索词包中的搜索词的词向量，进行词向量相似度计算，取每个搜索词最相近的topn扩展词，取为一个搜索词包。

LDA相关性方法

与word2vec方法类似

搜索词对 – 置信度、支持度

这种方法主要基于大规模的用户搜索行为，当两个词同时被大量用户同时搜索的话，我们可以认为这两个词相关性更高，可以作为搜索词-扩展词关系。

搜索词、购买物 – 置信度

这种方法主要基于大规模用户的搜索-购买行为，在这里有个前提：用户的搜索词首先要进行一个简单的规范化映射。例如：用户搜索“a6l”，需要先将它映射为“奥迪A6L”
当有大量用户在购买“奥迪A6L”之前都搜索了“宝马5系”，那么我们可以认为“奥迪A6L”和“宝马5系”是一对相关性很强的搜索词-扩展词，那么可以将“宝马5系”纳入“奥迪A6L”的搜索扩展词包。

基于业务规则的扩展方法

主要是一些业务规则，将某些对应品类很类似的关键词聚合在一起，融为一对搜索词-扩展词。

结论

上述word2vec、LDA都是基于关键词向量相似的方法进行扩展词挖掘的，其都是基于源站上现存的文本进行近义词学习，本质上与搜索词扩展无关，但是我们可以认为与搜索词相近的词就是扩展词，但是也是基于这种特性，导致搜索词扩展并没有真正从业务角度进行扩展词挖掘，本质上只是在进行同义词挖掘，因为同义词不一定可以作为扩展词使用。在某种意义上这也是这两种方法是上述方法效果最差的原因。
“搜索词对 – 置信度、支持度”和“搜索词、购买物 – 置信度”本质上都是在计算条件概率，但是由于关键词和用户的搜索行为挂钩，因此这两种方法看似简单，但是实际上效果在上述方法中最优。

思考

由上面可以看出，当关键词和用户的搜索行为挂钩后，才能更好的挖掘搜索扩展词。因此后面可以考虑将用户的搜索行为构成图网络，进行图网络挖掘。

冲啊_算法工程师

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
搜索词扩展实战

一些搜索词扩展实战的思考实战中使用到的搜索词扩展方法word2vec词向量相关性方法LDA相关性方法搜索词对 -- 置信度、支持度搜索词、购买物 -- 置信度基于业务规则的扩展方法结论思考实战中使用到的搜索词扩展方法我们做这个任务的目的是为了售卖搜索词包，因此我们本身就有一个完整的搜索词包，搜索词包中的搜索词都是规则的，不存在用户杂七杂八的搜索关键词。word2vec词向量相关性方法对源站...
复制链接

扫一扫