搜索词扩展实战

实战中使用到的搜索词扩展方法

我们做这个任务的目的是为了售卖搜索词包,因此我们本身就有一个完整的搜索词包,搜索词包中的搜索词都是规则的,不存在用户杂七杂八的搜索关键词。

word2vec词向量相关性方法

对源站上的文本先进行分词,特别是搜索词包中的关键词要预先加入分词辞典,将文章中的那些关键词进行正确的分词。得到分词后的文本后进行语言模型词向量学习,将文章中的每个词都进行向量化。
提取出搜索词包中的搜索词的词向量,进行词向量相似度计算,取每个搜索词最相近的topn扩展词,取为一个搜索词包。

LDA相关性方法

与word2vec方法类似

搜索词对 – 置信度、支持度

这种方法主要基于大规模的用户搜索行为,当两个词同时被大量用户同时搜索的话,我们可以认为这两个词相关性更高,可以作为搜索词-扩展词关系。

搜索词、购买物 – 置信度

这种方法主要基于大规模用户的搜索-购买行为,在这里有个前提:用户的搜索词首先要进行一个简单的规范化映射。例如:用户搜索“a6l”,需要先将它映射为“奥迪A6L”
当有大量用户在购买“奥迪A6L”之前都搜索了“宝马5系”,那么我们可以认为“奥迪A6L”和“宝马5系”是一对相关性很强的搜索词-扩展词,那么可以将“宝马5系”纳入“奥迪A6L”的搜索扩展词包。

基于业务规则的扩展方法

主要是一些业务规则,将某些对应品类很类似的关键词聚合在一起,融为一对搜索词-扩展词。

结论

上述word2vec、LDA都是基于关键词向量相似的方法进行扩展词挖掘的,其都是基于源站上现存的文本进行近义词学习,本质上与搜索词扩展无关,但是我们可以认为与搜索词相近的词就是扩展词,但是也是基于这种特性,导致搜索词扩展并没有真正从业务角度进行扩展词挖掘,本质上只是在进行同义词挖掘,因为同义词不一定可以作为扩展词使用。在某种意义上这也是这两种方法是上述方法效果最差的原因。
“搜索词对 – 置信度、支持度”和“搜索词、购买物 – 置信度”本质上都是在计算条件概率,但是由于关键词和用户的搜索行为挂钩,因此这两种方法看似简单,但是实际上效果在上述方法中最优。

思考

由上面可以看出,当关键词和用户的搜索行为挂钩后,才能更好的挖掘搜索扩展词。因此后面可以考虑将用户的搜索行为构成图网络,进行图网络挖掘。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值