【1】背景/术语:
- Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title
【2】Query的意图识别和传统的文本分类问题有如下区别:
- 类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类
- 样本分布不均衡:一、类别方面不均衡,vidio类占总比例需求很大。二、热门样本query出现频率高
- Query通常以短文本为主。Query通常极为精炼,特征比较稀疏。而Query有对应的点击Title,充分挖掘两类文本之间的关系,对效果提升有很大的帮助。
- 一些关系网:不同Query点击了相同的Title、相同Query点击了不同title
【3】特征提取:
文本特征提取(预先采用了分词工具分词)
- 因为分词不一定准确,改进:统计分词后word前后word的分布概率,通过P(pre_word|word)等合并成词概率高的词
- Ngram特征:
- double padding Tri-gram:加入句首和句尾结构信息
- 选择只在某一类出现的词(Title/Query:百度经验)
- TF-IDF
- 强化Query尾部和头部对权重:经验分类中Query:怎么,如何。
统计特征提取:
- Query长度、Query频次、BM-25:用来评价搜索词和结果之间相关性的算法
关系对利用:
- Query和Title关系:
- 宏观:相同对Query对应Title进行合并,将合并的title作为特征补充/协同过滤推荐类别(基于相似性的方法分类)
- 微观:提取Query、Title公共子串
- Query间的关系:
- Session中,Query变换的部分Diff部分强烈表达意图
- 相关Query集合共现的部分,将相似Query信息作为该Query特征补充
- 生成Query的Family Tree(根据Query的包含关系),Query的亲属作为特征补充
- title间的关系:
- 类似Query间特征的处理
语义特征提取
- LDA