数据入门--数据简介_名义定序连续-CSDN博客

本文链接：https://blog.csdn.net/qq_35622088/article/details/127378246

# 1、了解数据: #
## 1.1、简介 ##
    数据类型的构成,如图数据分为定量数据和定性数据;而定量数据又分为离散变量和连续变量;定性数据分为定序变量和名义变量。

    定序变量:是指该变量只是对某些特性的"多少"进行排序,但是哥哥等级之间的差别不确定

    名义变量:是指该变量只是测量某种特征的出现或者不出现。
# 1.2、变量的关键特征 #

## ★2.1集中趋势 ##
    集中趋势的主要测量值是:均值、中位数、众数。其中定性数据不通过此考虑。而定量数据中,定序变量主要考虑中位数和众数;名义变量主要考虑众数;--这由变量本身包含的意义所决定。

## ★2.2、离散程度 ##
    离散程度的讨论参照《离散数学》,常见的测量值有:极差、方差、标准差、四分位距、平均差、变异系数等。

    对于定量数据,极差代表数据的范围大小;方差、标准差和平均差等代表数据相对均值的偏离情况(一般不考虑,因为没法规避数值单位的影响);变异系数,则通过用标准差除以均值得到一个反映数据集的变异情况或者离散程度。

    对于定性数据:一般不考虑,所以也不做过多赘述。

## 2.3、相关性测量 ##
    在进行真正的数据分析之前,需要通过一些统计方法计算变量之间的相关性。

    1)、数据可视化处理:将想要分析的变量绘制成折线图或者散点图;这里推荐python的matplotlib工具;

    2)、计算变量之间的协方差:协方差的好处在于可以确定相关关系的正与负,同时当统计量的值发生变化时,实际变量的相关关系却没有发生变化;

    3)、计算变量间的相关系数:相关系数试一个不受测量单位影响的相关关系统计量。

    4)、进行一元回归或多元回归分析:[这个的提出可以很好的解决两个变量都是定性数据的相关性测试];

    定序变量采用肯德尔相关系数进行测量,当值为1时,表示两个定序变量拥有一致的等级相关性;当值为-1时,表示两个定序变量拥有完全相反的等级相关性;当值为0时,表示两个定序变量是相互独立的。

    名义变量:名义变量一般采用Lamda系数。Lamda系数是一个预测性的相关测度,表示在预测Y时如果知道X能减少的误差。

## 2.4、数据缺失 ##

    两个概念:完全变量:不含缺失值的变量称为完全变量;
           不完全变量:含有缺失值的变量

    产生缺失值的原因:
        1) 数据本身遗漏,如数据采集缺陷,存储介质故障,传输过程缺失等等。
        2) 某些对象的一些属性或者特征是不存在的.
        3) 某些信息被认为不重要等,被数据库设计者或者信息采集者忽略。

## 2.5、噪声 ##

    噪声是指被观测的变量的随机误差或方差;公式如下
        观测量(Measurement) = 真实数据(True Data) + 噪声(Noise)

## 2.6、离群点 ##

    在数据集中,与数据的一般行为或模型不一致的对象成为离群点。

# 3、数据质量 #

    典型的数据质量标准评估有4个要素:完整性,一致性,准确性,及时性。

## 3.1、完整性 ##

    完整性的评估一般是通过评估统计数据中的记录值和唯一性进行评估。
    记录值的评估:是通过与以往数据或者已知可能值数量做对比,如果差别太大那么可以判定不完整。
    唯一值的评估:是对某个固定值字段的评估,如果统计到与固定值的字段不一致那么便是不完整。
    其他:有时候统计字段数量的缺失,或者非空值被统计为空值,也是数据不完整性的体现,这一判断可以通过空值的占比体现。

## 3.2、一致性 ##

    一致性的验证主要是对统计数据是否符合一些固定的规则,如手机号必须11位,IP地址的组成等;或者验证数据是否符合一些逻辑规则。例如对一些边缘数据进行归类时我们可以建立一些"有效性规则"：如A>=B,如果C=B/A,那么C的值应该在0~1范围内,数据若无法满足这些规则就无法通过一致性检验。

## 3.3、准确性 ##

    准确性的验证时验证数据是否错误,这点大于一致性,因为准确性不仅要符合规则。常见不准确性有

    1、整个数据集中某个字段存在数据错误,这种常常利用Data Profiling 的平均数和中位数取验证。

    2、数据集中某个字段的一些值错误。这时候常常使用最大值和最小值的统计量去审核,或者使用箱线图。

    3、准确性审核问题、字符乱码问题或者字符被阶段问题。常常使用正态分布或者类正态分布验证。

    4、通过ETL工具或者使用多套数据收集系统或者网站分析工具。

## 3.4、及时性 ##

    顾名思义,及时性即数据的延时时长。

# 4、数据清洗 #

    数据清洗主要目的时提高数据质量,处理数据的:1、缺失值、噪声数据、不一致数据,异常数据。

## 4.1、缺失值的处理 ##

    处理缺失值主要有两种方法,一种是直接去掉这个属性(忽略掉缺失值的数据);另一种是对缺失值填补,主要是填补某一固定值或者平均值或者某一最可能的值(利用决策树或者回归分析)。

## 4.2、噪声数据处理 ##

    1) 分箱技术:
    将数据按照属性值划分子区间,如果属性值属于某个子区间就称将其放入该子区间对应"箱子"内,即分箱操作。箱子的*深度*表示箱中所含数据记录的**条数**,*宽度*则是对应属性值的**取值范围**。在分箱后再对数据按照箱平均值、中值、边界值进行平滑等。
    在采用分箱技术时需要确定如何分箱以及如何对每个箱子中的数据进行平滑处理。

    2) 聚类技术:
    将数据集合分组由类似的数据组成的多个簇(或称为类),其目的是用于找出并清除落在簇之外的值(噪声),这些值不适合于平滑数据。

    3) 回归技术:
    通过建立数学模型(线性回归和非线性回归)来预测下一个数值,并通过映射关系来平滑数据。

## 4.3、不一致数据的处理 ##

    可以通过知识工程工具对违反规则的不一致数据进行修改,也可以使用相关材料对照人工修改或者根据各自的数据源进行数据转化。

## 4.4、异常数据的处理 ##

    无固定处理方式,需要根据数据自行处理。

# 5、特征工程 #

    特征工程是通过一些具体的方法去除数据清洗后不符合领域知识的干扰项,以便用于后期的分析使用。包括1、特征选择、2、特征构建、3、特征提取。

## 5.1、特征选择 ##

    特征选择是从特征集合中选取一组最具有统计意义的子集,达到降维的效果。而特征选择子集的考虑主要是考虑
    子集数据是否发散:如果方差接近0那么样本在这个特征上基本没有差异,那么这个特征对于样本的区分并没有什么作用。
    特征是否与分析结果相关
    特征信息是否冗余:选择特征相关性高低。

    特征选择的方法有:
    1) Filter(过滤法)
    按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数选择特征。

    2) Warpper(包装法)
    根据目标函数(通常是预测效果评分),每次选择螺杆特征或者排除诺干特征。

    3) Embedded(集成法)
    流行方法,首先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,然后根据系数从大到小选择特征。

## ★5.2、特征构建 ##

    特征构建是通过洞察能力和分析能力人工构建,从原始数据中找出一些具有物理意义的特征。

## 5.3、特征提取 ##

    特征提取是在原始特征的基础上自动构建新的特征,将原始特征转换为一组更具物理意义、统计意义或者核的特征。方法主要有:1、主成分分析、2、独立成分分析、3、线性判别分析。

    1) PCA(Principal Component Analysis,主成分分析)--提取不相关部分
    PCA的思想是通过坐标轴转换寻找数据分布的最优子空间,从而达到降维、去除数据间相关性的目的。在数学上是先用原始数据协方差矩阵的前N个最大特征值对应的特征向量构成映射矩阵,然后原始矩阵去乘映射矩阵,从而对原始数据降维。特征向量可以理解为坐标轴转换中新坐标轴的方向,特征值表示矩阵在对应特征向量上的方差,特征值越大,方差越大,信息量越多。

    2) ICA(Independent Component Analysis,独立成分分析)--获得相关独立的属性
    ICA算法本质上是寻找一个线性变换 z = Wx ,使得z的各个特征分量之间的独立性最大。ICA与PCA相比更能刻画变量的随机统计特性,且能抑制噪声。

    ICA认为观测到的数据矩阵X可以由未知的独立元矩阵S与未知的矩阵A相乘得到.ICA希望通过矩阵X求得一个分离矩阵W,是得W作用在X上所获得的矩阵Y能够逼近独立元矩阵S,最后通过独立元矩阵S表示矩阵X,所以,ICA独立成分分析提取出的是特征中的独立成分。

    3) LDA(Linear Discriminant Analysis,线性判别分析)
    LDA的原理是将带上标签的数据(点)通过投影的方法投影到维度更低的空间,使得投影后的点会按类别区分,相同类别的点将会在投影后更接近,不同类别的点将相距更远。