一,赛题介绍
赛题提供10万个用户在一个月内的搜索引擎查询词,与该用户的属性标签(包括性别、年龄、学历)做为训练数据,用机器学习和数据挖掘的方法构建模型,去对新增用户的未知属性进行预测(已知信息即用户的搜索词),其中性别是二分类问题,年龄和学历都是六分类问题。
赛事官网为www.datafountain.cn,比赛自16年10月开始,历时两个月。
我们队伍最终排名为30/894,B榜准确率为0.69953。
二,思路概述
这是一个文本分类问题,我们的思路是:
- 先对训练集做特征工程,包括数据预处理,分词,特征选择。
- 结合词向量工具word2vec进行特征的优化。
- 尝试不同的分类模型,并进行模型集成(ensemble)以提高精度。
三,特征工程
预处理
首先观察一下我们拿到的训练集:一行代表一个用户,前三列信息分别是性别年龄学历的数值化表示,有空值,最后一列是该用户的搜索语句,多个搜索以制表符分割。我们先对空值做一下预处理。对于空值的处理我在另一篇博客中有介绍,详见