[搜索引擎]聊一聊搜索引擎如何获取用户意图

如何捕捉用的搜索意图, 是一件非常重要的事情.

首先来看, 用户一般是怎么表达他们的搜索意图呢? 首先, 在输入框里输入自己想搜索的关键字, 然后查看搜索结果, 如果搜索结果不不满意,再改写, 再搜索, 直到找到合适的搜索结果或者放弃未知.
一般来说,改写关键字, 有泛化改写, 具体化改写, 同义词改写.

而搜索意图, 也分很多类. 比较典型的有, 新闻搜索, 图片搜索, 视频搜索, 天气搜索, 信息咨询, 官网搜索. 书上概括的几类包括, 导航搜索(找网站), 信息搜索(找答案, 找相关新闻), 找资源(mp3, 电影, 图片, pdf), 甚至是购物.

搜索一般会产生搜索日志, 可以简单的记录原始搜索日志, 然后对搜索日志进行挖掘.
挖掘的成果可以有几种产出, 比如发现查询关键字之间的关联性, 一般是根据点击结果, 然后就可以用来做推荐, 或者关键字相近词推荐, 热词推荐.

以及用来做 搜索关键词矫正提示等等.(我对这种技术非常反感, 因为我觉得这会干扰用户正确的思维, 搜索就应该让用户独立的思考, 而不是由网站诱导提供一些垃圾关键词, 这只会让人盲目从众), 就算有这样的技术, 也应该让用户有反馈, 我喜欢什么样的提示, 不喜欢什么样的提示!

搜索日志挖掘, 还可以发现不同关键字之间的相同点击,从而给不同的关键字展示相同的搜索结果, 从而评价关键字之间的相似度.
综合所述, 搜索日志, 可以发现, 关键词之间的相似度, 还能发现一个用户的偏好.(假如一个搜索引擎记录了用户的搜索记录的话).

有专业的名次, 叫做查询会话, 也就是一个用户一段时间内的查询词语, 就像人聊天时候的一段会话一样. 还有一个专业词语叫做点击图(反映了用户实际点击情况). 还有一个词语, 叫相关搜索, 就是我们上面说的, 针对大数据的关键词的分析.

另外一个议题是, 关键字纠错. 用户可能存在输入错误,拼写错误的情况, 搜索引擎要能够识别出来. 这就像错别字识别技术一样.
有一个算法, 就是编辑距离, 研究一个单词最短的编辑次数变成另外一个单词. 但是这个算法只能针对英语单词, 针对汉语没啥用, 因为错字是不可能输入到输入框里面的. 现在的输入法都是智能联想的, 几乎不会出现错别字.

现在的问题, 最难的就是教会用户如何表达和提炼自己的搜索关键字. 这才是重中之重.

我们的搜索引擎有几种语法, 比如 site:xxx.com, inurl:xxx ,intitle: xxx, 实际上, 一般人懒得用, 这东西实在是个垃圾发明. 这种语法很糟糕, 因为它不符合人的自然理解, 我认为, 应该把冒号改成等于号,这样就清晰很多了. 而且最重要的一点是, 如果能像 sql 那样简单易懂就好了!!!

高级搜索, 应该越来越简单, 和易于理解才是王道! 应该做的越来越简单才对.
比如我搜一本书, 我这样写着: 资本论 作者=马克思 出版时间<18世纪 等等, 应该这样写, 就好很多了! 这是人类的自然语言的简单符号化, 不要再搞其他的东西!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值