生活场景大数据的特征

最新推荐文章于 2024-11-10 22:39:42 发布

HD Variables

最新推荐文章于 2024-11-10 22:39:42 发布

阅读量215

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41968879/article/details/106114840

版权

想通过一批个体浏览广告情况的数据预测个体的年龄和性别。数据具有一个这样的特征，记录着个体在三个月内浏览了多少种类的广告，广告的种类数有200万以上，每种的代号为‘24532’之类的，每个个体可以浏览多个广告，例如，一个人的这个特征值为：‘23456’，‘78965’，‘57483’，‘994895’，说明这个人在三个月内浏览了这4个种类的广告。

初看这个特征，是离散型的，可是之前没有试过分析特征类型超过5离散型特征。要用比较熟悉的方法来处理的话，可以归纳每个个体浏览了多少个类型的广告，可以得到类似连续型变量的特征，但是这样就无法知道具体浏览了哪些类型的广告，而广告的类型对性别的预测应该是尤其重要的，所以要能保留广告类型的信息。

想到自然语言处理（NLP）可以处理上千万的文本类型，而本任务的广告种类数是百万级别的，借鉴NLP的方法进行特征处理应该是有效的。本任务是分类任务，类似NLP中的文本分类和情感分类。由于本人之前没接触过NLP，所以先了解这方面的知识。

先了解以下概念：线性序列、RNN(循环神经网络)、CNN 、Transformer、 LSTM 、GRU。
NLP有三大特征抽取器，RNN、CNN 、Transformer。

RNN和普通神经网络的区别是RNN可以更好的处理序列，因为它隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。

LSTM 和 GRU 成为 RNN 的标准模型。

未完待续……

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。