生活场景大数据的特征

想通过一批个体浏览广告情况的数据预测个体的年龄和性别。数据具有一个这样的特征,记录着个体在三个月内浏览了多少种类的广告,广告的种类数有200万以上,每种的代号为‘24532’之类的,每个个体可以浏览多个广告,例如,一个人的这个特征值为:‘23456’,‘78965’,‘57483’,‘994895’,说明这个人在三个月内浏览了这4个种类的广告。

初看这个特征,是离散型的,可是之前没有试过分析特征类型超过5离散型特征。要用比较熟悉的方法来处理的话,可以归纳每个个体浏览了多少个类型的广告,可以得到类似连续型变量的特征,但是这样就无法知道具体浏览了哪些类型的广告,而广告的类型对性别的预测应该是尤其重要的,所以要能保留广告类型的信息。

想到自然语言处理(NLP)可以处理上千万的文本类型,而本任务的广告种类数是百万级别的,借鉴NLP的方法进行特征处理应该是有效的。本任务是分类任务,类似NLP中的文本分类和情感分类。由于本人之前没接触过NLP,所以先了解这方面的知识。

先了解以下概念:线性序列、RNN(循环神经网络)、CNN 、Transformer、 LSTM 、GRU。
NLP有三大特征抽取器,RNN、CNN 、Transformer。

RNN和普通神经网络的区别是RNN可以更好的处理序列,因为它隐藏层的值s不仅仅取决于当前这次的输入x,还取决于上一次隐藏层的值s。

LSTM 和 GRU 成为 RNN 的标准模型。

未完待续……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值