背景:
根据视频名称,得到若干相关视频
方法:
对视频名称切词,将切词后的term进行拉链求并,按照视频名称中term出现个数排序
缺点:
拉链求并代价高,没有考虑到term的权重,没有考虑视频属性
改进:
考虑英文、数字带来的影响
去除视频名称中冗余、没有意义的term(配置词表,使用正则过滤)
选择最能反映query的term词组(idf),去除停用词
考虑时间因素,建立视频的时间关联:相关视频,上传时间接近
考虑视频特征(短文本、连续剧、上下专辑)
考虑产品线特征:借助tag、introduction,加入其他因素来矫正相关性
分析视频上传者的行为,以帮助相关视频的分析:顺序、逆序(数字、字母)
对排序或者相关性进行矫正
排序:
文本相关性、人工调权、权重相同时排序策略
评估:
badcase分析、原因分析、改进