搜多日志是目前搜索引擎广泛采用的深入挖掘用户意图的有效数据源。
9.1 搜索行为及其意图
9.1.1 用户搜索行为
用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此产生对特定信息的需求,之后用户会在头脑中逐步形成描述需求的查询词,将
查询词交给搜索引擎,然后对搜索结果进行浏览。如果发现搜索引擎结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确的描述自己的
信息需求,之后重新构造查询请求,提交给搜索引擎。
常见的查询改写有3种:抽象化改写,具体化改写以及同义词重构改写。
9.1.2 用户搜索意图分类
1.导航型搜索
2.信息型搜索
3.事务型搜索
9.2 搜索日志挖掘
搜索日志是搜索引擎对用户行为的记录,通过记载用户行为,可以构建更好的算法以使得搜索结果更准确及更具个性化色彩。一般会记录用户发出的查询,发出查询的时间,
点击过哪些搜索结果等数据。搜索日志包含了很多可用的信息,从中可以挖掘出有价值的数据来帮助搜索引擎改善搜索质量,在使用搜索日志前,一般会对搜索日志进行整理,将
原始形式的查询日志转换为意义更加清晰的中间数据,常用的中间数据包括:查询会话,点击图及查询图。
9.2.1 查询会话(Query Session)
通过挖掘搜索日志,可以将同一用户在较短时间内发出的连续多个查询找出,这样一段日志被称作一个查询会话。
9.2.2 点击图(Click Graph)
从搜索日志记录可以看到,用户发出某个查询后,搜索引擎返回结果,而用户会有选择的点击其中某些链接。这种用户点击是比较有意义的,一般可以假设:用户之所以会
点击这个网址,是因为用户在看了网页标题和搜索引擎摘要后,认为这个网页是和查询比较相关的,所以才会点击。也就是说,可以认为搜索结果里被点击过的网页与用户查询
更相关。
将查询和这个查询对应的点击网址联系起来,可以构建点击图,这是一种二分图,一端的图节点是所有用户发出的查询条件,另一端的图节点是互联网网页的网址。
9.2.3 查询图(Query Graph)
用户发出的查询之间是有语义关联的,查询图就是试图构建查询之间相互关系的一种数据表示。
9.3 相关搜索
相关搜索也常被称为查询推荐,也就是说用户输入某个查询后,搜索引擎向用户推荐与用户相关查询语义的其他查询。用户对于自己的信息需求,不一定能很准确的想到
合适的搜索词来表达搜索意图,相关搜索可以给用户提示。
9.3.1 基于查询会话的方法
9.3.2 基于点击图的方法
9.4 查询纠错
用户输入键盘敲入查询的时候,一种很常见的错误是输入字符。大约有10%~15%的查询是错误的。
9.4.1 编辑距离(Edit Distance)
9.4.2 噪声信道模型(Noise Channel Model)