特征工程面试题

关于特征工程的题目1.什么是特征工程?答:本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你...
摘要由CSDN通过智能技术生成

关于特征工程的题目

1.什么是特征工程?

答:本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。

2.特征工程分哪几步?

答:①数据预处理;②特征选择;③特征提取。

3.原始数据通常存在哪些问题如何解决?(数据预处理的问题)

答:①缺失值:删除缺失的样本,或者补值,根据统计学原理,连续数据取平均,离散数据取众数;

②异常值

怎么检测异常值:

​ 1.基于高斯分布的异常值检测:3σ原则也是属于高斯分布判断方法的一种,在这里异常值被定义为,其值 与平均值的偏差超过三倍标准差的值,在正态分布的假设下,区域u+3σ包含了99.7% 的数据,如果某个值距离分布的均值超过了3σ,那么这个值就可以被简单的标记为一个异常点:P(|x−μ|>3σ)≤0.003

​ 2.四分位数

​ 3.更多的还有基于各类统计量来检测多元离群点,例如x^2检验、t检验等。

​ 4.基于主成分分析的矩阵分解方法,这种方法经过主成分分析分解,再进行重构,通过异常值在主成分分量上 的偏差更大来判断是否异常。

​ 5.基于距离,利用聚类的思想,对数据进行聚类.,排除距离中心最远的N个点,一般的方法有,kmeans、knn、DBSCAN等。

怎么处理异常值:

​ 1.删除含有异常值的记录,将异常值视为缺失值,交给缺失值处理方法来处理࿱

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值