一、问题背景
在电商网站中,用户对商品进行搜索得到的结果是否与预期相关影响网站的用户体验,因此研究如何提高用户搜索的结果与预期的相关性是一个有意义和有意思的问题。本文将利用人工评分标注的数据集和一些模型预测相关性。
二、思路
数据集的训练集字段包括用户搜索项、搜索结果,人工评分的中位数(分类变量,分别为1,2,3,4)和方差。因此,此问题可以被看做对标签的分类问题。 建模流程为:
三、结果
通过对不同模型的单一预测结果进行比较,确定了不同模型的权重,最后将所有模型进行加权,模型预测分数有显著提高。
为了进一步探索,本实验使用了pybrain中的前馈神经网络,利用BP反向传播算法进行了预测(http://pybrain.org/),结果与ensemble方法并无太大差别。实验中的数据集来自kaggle,在测试中没有使用全部数据集,特征提取也有较大改进空间。