使用sklearn与pybrain预测搜索相关性实战

一、问题背景
在电商网站中,用户对商品进行搜索得到的结果是否与预期相关影响网站的用户体验,因此研究如何提高用户搜索的结果与预期的相关性是一个有意义和有意思的问题。本文将利用人工评分标注的数据集和一些模型预测相关性。
二、思路
数据集的训练集字段包括用户搜索项、搜索结果,人工评分的中位数(分类变量,分别为1,2,3,4)和方差。因此,此问题可以被看做对标签的分类问题。 建模流程为:
这里写图片描述

三、结果
通过对不同模型的单一预测结果进行比较,确定了不同模型的权重,最后将所有模型进行加权,模型预测分数有显著提高。
这里写图片描述

为了进一步探索,本实验使用了pybrain中的前馈神经网络,利用BP反向传播算法进行了预测(http://pybrain.org/),结果与ensemble方法并无太大差别。实验中的数据集来自kaggle,在测试中没有使用全部数据集,特征提取也有较大改进空间。

代码位于https://github.com/zoneplus/search_relevance_prediction

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值