2016CCF大数据与计算智能大赛——搜狗用户画像比赛总结

一,赛题介绍

赛题提供10万个用户在一个月内的搜索引擎查询词,与该用户的属性标签(包括性别、年龄、学历)做为训练数据,用机器学习和数据挖掘的方法构建模型,去对新增用户的未知属性进行预测(已知信息即用户的搜索词),其中性别是二分类问题,年龄和学历都是六分类问题。

赛事官网为www.datafountain.cn,比赛自16年10月开始,历时两个月。
我们队伍最终排名为30/894,B榜准确率为0.69953。

二,思路概述

这是一个文本分类问题,我们的思路是:

  1. 先对训练集做特征工程,包括数据预处理,分词,特征选择。
  2. 结合词向量工具word2vec进行特征的优化。
  3. 尝试不同的分类模型,并进行模型集成(ensemble)以提高精度。

三,特征工程

  1. 预处理
    首先观察一下我们拿到的训练集:一行代表一个用户,前三列信息分别是性别年龄学历的数值化表示,有空值,最后一列是该用户的搜索语句,多个搜索以制表符分割。我们先对空值做一下预处理。对于空值的处理我在另一篇博客中有介绍,详见

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值