关于特征工程的题目
1.什么是特征工程?
答:本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。
2.特征工程分哪几步?
答:①数据预处理;②特征选择;③特征提取。
3.原始数据通常存在哪些问题如何解决?(数据预处理的问题)
答:①缺失值:删除缺失的样本,或者补值,根据统计学原理,连续数据取平均,离散数据取众数;
②异常值:
怎么检测异常值:
1.基于高斯分布的异常值检测:3σ原则也是属于高斯分布判断方法的一种,在这里异常值被定义为,其值 与平均值的偏差超过三倍标准差的值,在正态分布的假设下,区域u+3σ包含了99.7% 的数据,如果某个值距离分布的均值超过了3σ,那么这个值就可以被简单的标记为一个异常点:P(|x−μ|>3σ)≤0.003
2.四分位数
3.更多的还有基于各类统计量来检测多元离群点,例如x^2检验、t检验等。
4.基于主成分分析的矩阵分解方法,这种方法经过主成分分析分解,再进行重构,通过异常值在主成分分量上 的偏差更大来判断是否异常。
5.基于距离,利用聚类的思想,对数据进行聚类.,排除距离中心最远的N个点,一般的方法有,kmeans、knn、DBSCAN等。
怎么处理异常值:
1.删除含有异常值的记录,将异常值视为缺失值,交给缺失值处理方法来处理