数据质量
文章平均质量分 85
SMT深海的鱼
There is only one heroism in the world: to see the world as it is and to love it.
展开
-
数据清洗_第一篇 缺失值处理(3)_常见插值法(均值、回归、EM、多重)
目录1. 均值插值法2. 回归插值法3. EM算法4. 多重插值1. 均值插值法均值插补是利用样本数据平均值或众数作为其替代值对数据进行插值。均值插补的插补值计算方程为: (1)其中,为是否回答的描述符号表示,表示“是”,表示“否”,是个数2. 回归插值法回归插值是根据样本中缺失变量和已得到变量构建回归方程,即根据已有的样本数据,对调查中目标变量的缺失值进行估算。构建自变量与目标变量Y的关系,且第个缺失值的插补估算值可表示为: ...原创 2021-06-19 22:47:08 · 20009 阅读 · 0 评论 -
数据质量管理_第三篇 不平衡数据处理(2)
目录1. 数据不平衡处理难点2. 解决方案3. 缺点1. 数据不平衡处理难点不同数据类型的处理难度:大数据+分布均匀<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡\color{blue}{大数据+分布均匀< 大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡}大数据+分布均匀<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡对于需求解决的问题:拿到数据后,首先统计可用训练数据有多大,\color{red}{首先统计可用训原创 2020-08-06 11:39:18 · 200 阅读 · 0 评论 -
数据质量管理_第四篇 对数变换
目录1. 对数变换 log transformation2. 数据取对数的原因3. 取对数的意义4. 计算公式1. 对数变换 log transformation对数变换是一种特殊的数据变换方式,它可以将一类理论上未解决的模型问题转化为已经解决的问题。2. 数据取对数的原因基于对数函数在其定义域内是单调递增函数。取对数后不会改变数据的相对关系。它们的主要作用在于它能帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。3. 取对数的意义缩小数据的绝对数值,方便计算取对数后,可原创 2020-08-06 11:06:20 · 2731 阅读 · 0 评论 -
数据质量管理_第三篇 非平衡数据集处理(1)
A、定义:不平衡数据集:在分类等问题中,正负样本或者各个类别的样本数目不一致。B、例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集。直观的影响就是,用这些不平衡的数据训练出来的模型,其预测结果偏向于训练数据中数据比较多的那一类,在人脸检测的例子中,就是检测器的检测结果大部分都偏向于没有检测到人脸图像。另外一个不平衡数据集,就...转载 2018-04-26 16:29:19 · 1186 阅读 · 0 评论 -
数据质量管理_第二篇 去量纲、数据归一化
1、去量纲指是去除数据单位之间的不统一,将数据统一变换为无单位(统一单位)的数据集,也可以作为指标的权重,进行后续的加权计算。2、数据归一化数据分标准化是将数据按比例缩放,使之落入一个小的特定区间,在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。A、对一维数据的缩放有如下定义:0-1归一化(normalization...原创 2018-04-26 15:10:14 · 20907 阅读 · 0 评论 -
数据质量管理_第一篇 检查指标
一、数据质量检测系统“工欲善其事,必先利其器”需对数据质量进行测量,就需要数据质量检测系统。测量数据质量,监控关键数据二、检测指标如下:2.1有效性字段长度有效: 字段内容有效 字段数值范围有效 枚举值个数有效 枚举值集合有效2.2 唯一性对主键是否存在重复数据的监控指标。2.3 完整性字段是否为空或NULL 记录数是否丢失 记录数环比波动 录数波动范围。 记录数方差检验2.4 准确性数值同比 数值环比 数值方差检验 表逻辑检查2.5 一致性.原创 2020-05-28 11:08:08 · 1929 阅读 · 0 评论