目录
二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么?
三、回顾数据标准化及归一化原理,简述数据标准化及归一化的优势
五、针对不同数据质量问题,采用什么样的数据手段对数据进行数据清洗
一、数据预处理可以包括那些操作
数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,就需要用到数据预处理技术。数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,保证了后期数据分析工作的质量和效率。该项工作包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗。基于预处理后的数据从数据分析的需求出发,构建一个描述数据的特征模型,为后续的数据分析做好准备。
二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么?
1.随机抽样(Random Sampling)
特点:从总体中逐个抽取样本
- 抽签法
- 随机数法
- 水库抽样
2.系统抽样(Systemactic Sampling)
特点:将总体数据均衡地分成几个数据子集,然后按照某一预先设定的规则,在每个子集中抽取样本数据,这种抽样叫做系统抽样,又称等距抽样。
3.分层抽样(Stratified Sampling)
特点:先将总体按照某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本,从而保证样本结构与总体结构比较相近提高估计地精度。
4.加权抽样(Weighted Sampling)
特点:该方法通过对总体中的每个样本设置不同数值大小的权值,使得样本能呈现出对数据分析工作不同的重要性,从而让数据分析结果能达到预期效果。
三、回顾数据标准化及归一化原理,简述数据标准化及归一化的优势
1.数据标准化
当样本不同特征之间在数值上存在较大差异或数值分布范围较大时,需要对数据进行标准化处理。常用的数据标准化方法有
- Z-score标准化
- Min-Max标准化
- 小数点定标标准化
- Logistic标准化
2. 归一化
样本特征数据之间往往有不同评价指标、不同的纲领和纲领单位,这种情况会降低数据分析结果的精确性和合理性,为了消除数据之间不同纲领对分析过程的影响,需要进行数据归一化处理。
- 线性归一化:(1)0至1归一化 (2)-1至1归一化
- 非线性归一化:(1)对数函数转换 (2)反正切函数转换
四、一般业务会存在什么样的数据质量问题
1.缺失(Missing)
- 暂时无法获取相关数据
- 数据被遗漏
- 样本数据某个或某些特征是不具备的
- 数据获取的代价过大或无法获取
2.离群(Outlier)
离群值即指存在一个或若干个样本特征数据,其在数值上与其他样本数据之间存在较大差异
3.重复(Duplication)
相同数据样本数据多次反复地出现的现象
4.错误(Error)
- 删失
- 截断
五、针对不同数据质量问题,采用什么样的数据手段对数据进行数据清洗
数据清洗主要有针对数据存在不完整的问题,进行缺失值填充;针对数据的数值或其格式存在不一致问题,进行数据格式、内容清洗;针对数据存在不准确问题,进行逻辑错误清洗。
1.缺失值填充
常用的缺失值处理方法:
- 删除法:主要通过删除属性或者删除样本记录
- 统计填充法:统计填充法即利用所有样本关于存在缺失值的字段的统计值对其进行填充
- 统一填充法
- 预测填充法
2.格式、内容清洗
- 显示格式不一致清洗
- 非法字符的清洗
- 数据与字段定义的内容不一致清洗
3.逻辑错误清洗
- 去重
- 去除不合理值
- 修正矛盾内容
六、思考特征工程所包含的内容与步骤
从本质上来说,特征工程是一项工程活动,即通过一系列的方法和操作流程,最大限度地从原始数据中提取有用、有意义的特征以供数据分析算法和模型使用,其直接影响了数据分析的质量。
1.大数据分析中的特征
数据类型 | 观测对象 | 特征描述 |
结构化数据 | 由不同的变量或属性构成 | 属性就是特征(这里属性特征队医分析和解决问题有用,有意义的属性) |
非 结构化 数据 | 一幅图像 | 可能是图中的一条线 |
一个文本 | 可能是其中的段落或者词频率 | |
一段语音 | 可能是一个词或者音素 |
2.特征的重要性
特征重要性,可以被认为是一个选择特征重要的评价方法。特征可以被分配一个分值,然后按照这个分值排序,那些具有较高得分的特征可以被选出来包含在训练集中,同时剩余的就可以被忽略。特征重要性得分可以帮助我们抽取或者构建新的特征。挑选那些相似但是不同的特征作为有用的特征。 如果一个特征与因变量(被预测的事物)高度相关,那么这个特征可能很重要。相关系数和其他单变量的方法(每一个变量被认为是相互独立的)是比较通用的评估方法。 更复杂的方法是通过预测模型算法来对特征进行评分。这些预测模型内部有这样的特征选择机制,比如多元自适应回归样条法,随机森林,梯度提升机。这些模型也可以得出变量的重要性。
3.特征降维
特征降维就是用来减少维度,去除过拟合现象的方法。特征降维分为两种特征选择和特征抽取。
降维的作用:(为什么会有这些作用?)
(1)降低时间的复杂度和空间复杂度
(2)节省了提取不必要特征的开销
(3)去掉数据集中夹杂的噪音
(4)较简单的模型在小数据集上有更强的鲁棒性
(5)当数据能有较少的特征进行解释,我们可以更好地解释数据,是的我们可以提取知识
(6)实现数据的可视化
4.特征提取和特征选择
特征提取是在原始特征或降维后的特征中,采用特征提取技术进行关键特征的提取。
特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下七种:
- 计算每一个特征和响应变量的相关性。
- 单个特征模型排序。
- 使用正则化方法选择属性。
- 应用随机森林选择属性。
- 训练能够对特征打分的预选模型。
- 通过特征组合后再来选择特征。
- 基于深度学习的特征选择。
5.特征构建
基于特征提取结果,采用人工的方式进行特征构建。
6.特征学习
特征学习是在原始数据中自动识别和使用特征。深度学习技术在特征学习领域有许多成功的案例,如自动编码器和首先波尔兹曼机。
7.特征变换
特征变换能消除原始特征之间的相关关系或减少冗余,得到新的特征使其更加便于数据分析。
- 从信号处理观点来看,可在变换域中进行处理并提取信号性质,常见的算法有傅里叶变换、小波变换和Gabor变换等。
- 从统计观点来看,减少变量之间的相关性,用少数的变量来尽可能反应样本信息,常见的算法有主成分分析、因子分析和独立成分分析等。
- 从几何观点来看,通过变换到新的表达空间,使得数据可分性更好。常见的算法有线性判别分析、核方法等。