应征之作——你会如何处理无效数据?

应征之作——你会如何处理无效数据?

看到了C站的活动,所以谈一下对无效数据的看法。

对于数据库管理员以及数据库开发人员,以及数据分析人员来说
无效数据是时时处处都存在的,必须始终与无效数据周旋到底。

一 无效数据的概念


  1.1 什么是无效数据


   无效数据是无法应用于数据分析的数据。无论是数据过期,
数据未被授权,数据类型不对,数据值超出有效值的范围,
数据项有缺失,数据自身因输入等原因造成的错误 这些统统
是无效数据的例子。

  1.2 无效数据对统计带来的不利影响有哪些


第一个影响是可以造成数据分析程序运行出错。
第二个影响是使得数据分析结果出现严重错误,或者是误差变大。
第三个影响是当无效数据占比太大时,导致项目失败

  1.3 如何识别无效数据


第一步:定义无效数据的标准
第二步:开发数据清洗的程序 或者在数据清洗的工具
中定义识别无效数据的规则 
第三步:执行程序
第四步:生成无效数据的识别报告


二 无效数据的处理方法

2.1 方法一数据恢复

例如音频数据的格式不符合要求,采用格式转换工具,
统一进行批量转换格式。
例如图片数据的分辩率不同,采用图像编辑软件统一
批量,剪辑成相同的大小。
例如数据库中的数据记录类型不一致,可以统一转成
相同的类型

2.2 方法二数据直接打上无效的标记

通过标记的方法,把无效数据排除在数据分析之外。
对于音频,视频,图片等非结构化的数据,它们往往存在
于文件中,这时通过对文件名进行统一的修改,例如加上无效
两个字作为结尾。

对于数据库中的记录的无效,会在相应的字段上,设置为无效。

2.3 方法三 数据直接删除

这种方法很少用,但是当无效数据的比例较大时,就需要
直接进行删除了。这种方法简单粗暴,需要慎用。

三 如何减少无效数据

3.1 在技术上,事前的数据校验与事中处理相结合

从数据的来源上看,有以下几种:

1 用户在web页上的手工输入
   在网页前端上加入严谨的验证程序,在服务器端再
进行验证与处理

2 传感器从现场获得的实时数据
由于网络传输的不稳定等情况,常常造成数据缺失。
需要有识别程序来检测数据缺失,以及用数据插入法
进行数据恢复等。

3 合作的第三方等通过协议获得的数据
在协议中要约定容易检测的数据质量指标。而且要约定
检测工具等细节,如果数据不合格,需要让第三方去返工。

4 由员工或者是外包团队处理的数据
要有质量检测部门的数据质量检测。

3.2 在管理上,数据质量规范与数据质量控制相结合

数据质量规范要具体详细。数据质量控制方法也要在
内部公开。

3.3 在制度上,数据评估制度与奖罚制度相结合

采用排名与末位淘汰等


四 实际案例举例

在以往的实际工作中,处理的数据有

4.1 日期与时间类的数据

主要检查超出特定范围的数据

4.2 IP,邮件地址,手机号,性别,地址等有特别格式的数据

主要检查 违反格式的数据

4.3 温度,湿度,光照度,电流,电压,功率等物联网采集的数据

主要检查 整体上的记录缺失情况,单一数据的值范围超出的问题

4.4 代码,文本,图像的数据

主要是安全合规性检测。在代码的检查包括语法检查,语义检查,
危险代码的特征分析,代码功能分析等。

文本数据主要是内容分类,提取关键字,分析正负向意图等。

图像的检查包括,格式,大小,是否彩色的分类,提取标签,
鉴别违规内容等。
 

阅读终点,创作起航,您可以撰写心得或摘录文章要点写篇博文。去创作
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
首先,我们需要先进行Fisher判别函数的建立,步骤如下: 1. 收集样本数据,包括已知类别的应征人员数据。 2. 对样本数据进行预处理,包括缺失值处理、异常值处理等。 3. 对样本数据进行特征选择,选择能够有效区分不同类别的特征。 4. 计算各个特征的类内离散度和类间离散度,然后求出最优判别函数。 5. 利用最优判别函数对新的应征人员进行分类。 下面是具体的步骤: 1. 收集样本数据。假设我们已经收集到了50个应征人员的数据,每个应征人员有3个特征,其中2个特征是数值型,1个特征是分类型。已知其中25个应征人员被录取,25个应征人员未被录取。 2. 对样本数据进行预处理。假设我们已经完成了缺失值和异常值的处理,得到了完整的数据集。 3. 对样本数据进行特征选择。我们可以使用逐步回归法、方差分析法等方法进行特征选择,选择出对分类有显著影响的特征。假设我们选择了两个数值型特征作为最终的特征。 4. 计算各个特征的类内离散度和类间离散度。假设我们使用SPSS进行计算,具体步骤如下: - 打开SPSS软件,导入样本数据。 - 选择“分类”-“判别分析”-“线性”菜单,进入线性判别分析对话框。 - 在“变量”选项卡中,选择要进行分析的变量,包括分类变量和数值型变量。 - 在“选项”选项卡中,选择“类内离散度矩阵”和“类间离散度矩阵”。 - 点击“确定”按钮,SPSS将自动计算各个特征的类内离散度和类间离散度,并输出最优判别函数。 5. 利用最优判别函数对新的应征人员进行分类。假设我们已经收集到了4名新的应征人员的数据,每个应征人员有3个特征,其中2个特征是数值型,1个特征是分类型。我们可以使用Bayes判别法进行分类,具体步骤如下: - 根据已知样本数据,计算出各个类别的先验概率。 - 根据已知样本数据,计算出各个类别的条件概率密度函数。 - 对于每个新的应征人员,计算出其在各个类别下的后验概率。 - 将新的应征人员分类为后验概率最大的那个类别。 以上就是利用SPSS建立Fisher判别函数,并结合Bayes判别法对新的应征人员进行类别判定的具体步骤。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王伟1982

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值