想通过一批个体浏览广告情况的数据预测个体的年龄和性别。数据具有一个这样的特征,记录着个体在三个月内浏览了多少种类的广告,广告的种类数有200万以上,每种的代号为‘24532’之类的,每个个体可以浏览多个广告,例如,一个人的这个特征值为:‘23456’,‘78965’,‘57483’,‘994895’,说明这个人在三个月内浏览了这4个种类的广告。
初看这个特征,是离散型的,可是之前没有试过分析特征类型超过5离散型特征。要用比较熟悉的方法来处理的话,可以归纳每个个体浏览了多少个类型的广告,可以得到类似连续型变量的特征,但是这样就无法知道具体浏览了哪些类型的广告,而广告的类型对性别的预测应该是尤其重要的,所以要能保留广告类型的信息。
想到自然语言处理(NLP)可以处理上千万的文本类型,而本任务的广告种类数是百万级别的,借鉴NLP的方法进行特征处理应该是有效的。本任务是分类任务,类似NLP中的文本分类和情感分类。由于本人之前没接触过NLP,所以先了解这方面的知识。
先了解以下概念:线性序列、RNN(循环神经网络)、CNN 、Transformer、 LSTM 、GRU。
NLP有三大特征抽取器,RNN、CNN 、Transformer。
RNN和普通神经网络的区别是RNN可以更好的处理序列,因为它隐藏层的值s不仅仅取决于当前这次的输入x,还取决于上一次隐藏层的值s。
LSTM 和 GRU 成为 RNN 的标准模型。
未完待续……