面试总结之特征工程

最新推荐文章于 2024-04-20 10:41:05 发布

DCGJ666

最新推荐文章于 2024-04-20 10:41:05 发布

阅读量735

点赞数

分类专栏： Pytorch复习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DCGJ666/article/details/124210460

版权

Pytorch复习专栏收录该内容

25 篇文章 0 订阅

订阅专栏

面试总结之特征工程

特征工程有哪些
遇到缺值的情况，有哪些处理方式
样本不均衡的处理办法
出现Nan的原因
特征筛选，怎么找出相似性高的特征并去掉
包含百万，上亿特征的数据在深度学习中怎么处理
计算特征之间的相关性方法有哪些？

特征工程有哪些

数据预处理
1. 处理缺失值
2. 图片数据扩充
3. 处理异常值
4. 处理类别不平衡问题
特征缩放
1. 归一化
2. 正则化
特征编码
1. 序号编码
2. 独热编码
3. 二进制编码
4. 离散化
特征选择
1. 过滤式（filter）:先对数据集进行特征选择，其过程与后续学习器无关，即设计一些统计量来过滤特征，并不考虑后续学习器问题，如方差选择，卡方检验，互信息
2. 包裹式（wrapper）：实际上就是一个分类器，它是后续的学习器的性能作为特征子集的评价标准。如las vagas算法
3. 嵌入式（embedding）：实际上是学习器自主选择特征。如基于惩罚项的选择，基于树的选择GBDT
特征提取
1. 降维
2. 图像特征提取
3. 文本特征提取
特征构建

遇到缺值的情况，有哪些处理方式

直接使用含有缺失值的特征：当仅有少量样本缺失该特征的时候可以尝试使用；
删除含有缺失值的特征：这个方法一般适用于大多数样本都缺少该特征，且仅包含少量有效值是有效的
插值补全缺失值
均值、众数、中位数、固定值、手动、最近邻补全
建模预测：回归、决策树
高维映射，压缩感知
多种方法插补

样本不均衡的处理办法

扩充数据集
尝试其他评价指标
对数据集进行重采样

 - 对小类的数据样本进行采样来增加小类的数据样本个数，即过采样（over-sampling, 采样的个数大于该类样本的个数）
 - 对大类的数据样本进行采样来减少该类数据样本的个数，即欠采样（under-sampling, 采样的次数少于该类样本的个数）

尝试不同的分类算法：如决策树往往在类别不均衡数据上表现不错
尝试对模型进行惩罚：比如你的分类任务是识别那些小类，那么可以对分类器的小类样本数据增加权值，降低大类样本的权值，focal loss

出现Nan的原因

Nan的含义是没有意义的数，一般有几种情况：0/0, Inf/Inf, Inf-Inf, Inf*0等，都会导致结果不确定，所以会得到NaN
数据处理时，在实际工程中经常数据的缺失或者不完整，此时我们可以将那些缺失设置为nan
读取数据时，某个字符不是数据，那么我们将它认为nan处理

特征筛选，怎么找出相似性高的特征并去掉

特征选择—过滤法：可以采用方差选择法或相关系数法

包含百万，上亿特征的数据在深度学习中怎么处理

特征多，数据少，很容易导致模型过拟合

降维：PCA 或LDA
使用正则化，L1或L2
样本扩充
特征选择：去掉不重要的特征

计算特征之间的相关性方法有哪些？

pearson系数，对定距连续变量的数据进行计算。是介于-1和1之间的值
spearman秩相关系数：是度量两个变量之间的统计相关性的指标，用来评估当前单调函数来描述两个变量之间的关系有多好
kendall相关系数：肯德尔系数是一个用来测量两个随机变量相关性的统计值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
面试总结之特征工程

面试总结之特征工程特征工程有哪些遇到缺值的情况，有哪些处理方式样本不均衡的处理办法出现Nan的原因特征筛选，怎么找出相似性高的特征并去掉包含百万，上亿特征的数据在深度学习中怎么处理计算特征之间的相关性方法有哪些？特征工程有哪些数据预处理1. 处理缺失值2. 图片数据扩充3. 处理异常值4. 处理类别不平衡问题特征缩放1. 归一化2. 正则化特征编码1. 序号编码2. 独热编码3. 二进制编码4. 离散化特征选择1. 过滤式（filter）:先对数据集进行特征选择，其过程与后
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。