特征工程

处理数据不可或缺的需要使用到特征工程

本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。

常用方法:
时间戳处理----分解类别属性----分箱/分区----交叉特征----特征选择----特征缩放----特征提取

在这里插入图片描述

1.对于不同的特征该如何进行特征工程?
(1)对于数值型特征,采用特征归一化,目的是将所有的特征统一到大致相同的我数值区间
(2)对于类别型特征,先处理成数值型特征,具体可以采用序号编码(处理类别之间具有大小关系的数据),独热编码(处理类别之间不具有大小关系的数据),二进制编码(维数少于独热编码,节省存储空间)
(3)对一阶离散特征两两组合,构成高阶特征,目的是提高复杂关系的拟合能力。
(4)文本特征,采用词袋模型和n-gram模型,主题模型,词嵌入模型

以Alexnet更新。。。。。。。。。。。。。。。。。。。。。。。。。。

关于卷积神经网络,不同的网络算法,其实大家的框架是一样的,不一样的是大家的卷积层,也就是提取特征的过程。

Alexnet包含了八个学习层,五个卷积层和三个全连接层。
在这里插入图片描述

卷积-激活函数-降采样-标准化 模块一和模块二
在这里插入图片描述
在这里插入图片描述

卷积层(Convolutional Layer)
卷积的过程很好地模拟了人的视觉神经系统的过程
降采样层(Pooling Layer)
降采样就是用一个值来代替一块区域,这个值可以是区域的平均值,最大值,最小值等等,反正有代表性就好了,这个层的目的就是减少数据量。
激活函数层(Activation Layer)
ReLU的有效性体现在两个方面:
克服梯度消失的问题
加快训练速度

在这里插入图片描述

在这里插入图片描述

标准化层(Normalization Layer)

全连接层(Full Connected Layer)
全连接层给人的感觉就是人工神经网络的那样,把所有的网络结点都用一些带权重的值连接起来
扔掉层(Dropout Layer)
这个层的作用是加快运算速度,防止过拟合,让网络更加的普适,更加有所谓的“鲁棒性”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值