《Constructing plausible innocuous pseudo queries to protect user query intention》
Information Sciences 325 (2015) 215–226
《构建合理的无害的伪查询来保护用户的查询意图》
摘要:
本文提出了一个基于客户机的方法来保护用户查询意图。主要思想是构建一些合理无害的伪查询放在用户的查询词中,来达到掩盖用户意图的目的。
1. Introduction
本文的方法有两个基本点:
1).不改变原有的收索引擎;
2)此方法的返回结果是查询意图的真实结果的一个超集[注释2],所以不影响性能(准确率和召回率)
未查询词必须具有:合理性、无害性(和真是查询词不相干)
2. Methodology
1)隐私模型(7个定义)Q代表查询空间,P代表话题空间
①Re(q,pi):查询-话题相关度函数,返回值:语义相关性的度量
②P(q)={pi|pi∈P∧Re(q,pi)>λu}:用户意图的组成,其中λu是一个阈值
③Re(p1,p2):话题-话题相关度函数,返回值:语义相关性的度量
④Inn(pi,q):无害性(需要多的话题和查询词无语义相关性)
⑤F(q)= [F(t1),F(t2),...,F(tn) ],where n=|T(q)|and t1,t2,...,tn∈T(q). :q的特征分布
⑥Pla(q1,q2):两个查询词的合理性,由两个词的特征向量分布的相识度来计算
⑦G⊆Q:和查询q有关的一组未查询词
2)方法:
①识别用户意图:Re ( q, p i ) ;为用户查询识别相关意图
②查询无害话题:
③生成伪查询词:
3. Experiment
4. Conclusion
改进:1)根据用户一系列查询词而不是单个词来进行保护用户意图
2)使用其它资源库,不只是使用维基百科
注释:
1.a client-based approach:构建一些合理的无害的伪查询和用户的一个查询结合在一起,达到掩盖用户查询意图。
2.Superset(超集):如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集。 S1是S2的超集,若S1中一定有S2中没有的元素,则S1是S2的真超集,S2是S1的真子集。