CHAP4:清洗数据

1.确保数据完整性

数据完整性是确保分析成功所必需的。在这部分课程中,您将探索分析师检查数据完整性所采取的方法和步骤。这包括在数据量不足时知道该怎么做。您还将了解样本量、避免样本偏差和使用随机样本。所有这些措施也有助于确保成功的数据分析。

数据完整性是

  1. 准确性
  2. 完整性
  3. 一致性
  4. 可信度
数据约束的示例

在这里插入图片描述

1.1当您发现数据存在问题时该怎么办

1.1.1没有数据

在这里插入图片描述

1.1.2数据太少

在这里插入图片描述

1.1.3错误数据,包括有错误的数据*

在这里插入图片描述
使用以下决策树提醒如何处理数据错误或数据不足:
在这里插入图片描述

1.2计算样本量

在这里插入图片描述

1.2.1确定样本大小时要记住的事项

在计算样本量时,请记住以下几点:

  • 不要使用小于 30 的样本量。统计证明,30 是最小样本量,其中样本的平均结果开始代表总体的平均结果。
  • 最常用的置信水平是 95%,但在某些情况下 90% 可以工作。

增加样本量以满足您项目的特定需求:

  • 要获得更高的置信水平,请使用更大的样本量
  • 要减少误差范围,请使用更大的样本量
  • 为了获得更大的统计意义,请使用更大的样本量

注意:样本量计算器使用统计公式来确定样本量。更多关于这些的内容将在课程中介绍!敬请关注。

为什么最少要 30 个样本?

该建议基于概率和统计领域的中心极限定理 (CLT) 。随着样本量的增加,结果更接近于大量样本的正态(钟形)分布。30 个样本是 CLT 仍然有效的最小样本量。依赖回归分析( 确定控制变量和因变量之间关系的统计方法)的研究人员 也更喜欢至少 30 个样本。

还是好奇?无需过多研究数学,请查看以下文章:

中心极限定理 (CLT):Investopedia 的这篇文章解释了中心极限定理,并简要描述了它如何应用于股票指数的分析。

样本量公式:Statistics Solutions 的这篇文章更详细地说明了为什么一些研究人员使用 30 作为最小样本量。

1.2.2样本量因业务问题而异

样本量将根据您尝试解决的业务问题的类型而有所不同。

例如,如果你住在一个人口为 200,000 的城市,并且有 180,000 人参与调查,那么这就是一个大样本量。但如果不实际这样做,一个可接受的、较小的样本量会是什么样子?

如果被调查的人代表了全市的每个区,200个就可以了吗?

答:这取决于赌注。

  • 如果您的业务问题是了解居民对新图书馆的感受,那么 200 个样本量可能就足够大了

  • 如果您的业务问题是确定居民将如何投票资助图书馆,那么 200 的样本量可能不够大

你可能会接受更大的误差范围,即调查居民对新图书馆的感受,而不是调查居民如何投票资助它。因此,您很可能会为选民调查使用更大的样本量。

1.2.3更大的样本量具有更高的成本

您还必须权衡成本与更大样本量的更准确结果的好处。试图了解消费者对新产品系列偏好的人不需要像试图了解新药效果的人那样大的样本量。对于药物安全,使用更大样本量的好处超过了成本。但是对于消费者的偏好,以较低的成本提供较小的样本量可以提供足够好的结果。

1.3没有数据时怎么办

1.3.1代理数据示例

在这里插入图片描述

1.3.2开放(公共)数据集

如果您是大型组织的一员,您可能有权访问大量数据源。但是,如果您正在寻找特定的或业务范围之外的东西,您也可以使用开放或公共数据集。

1.4样本量计算器

样本量计算器会告诉您需要采访多少人(或需要测试的东西)才能获得代表目标人群的结果。让我们回顾一下您在使用样本量计算器时会遇到的一些术语:

  • 置信水平:您的样本量准确反映更大总体的概率。
  • 误差范围:预期样本结果与实际总体差异的最大量。
  • 人口:这是您希望从中提取样本的总数。
  • 样本:代表人口的人口的一部分。
  • 估计回复率:如果您正在对个人进行调查,这是您预计将完成调查的人在接受调查的人中所占的百分比。

1.4.1如何使用样本量计算器

为了使用样本量计算器,您需要确定总体规模、置信度和可接受的误差范围,以便您可以将它们输入到工具中。如果此信息已准备就绪,请查看以下样本量计算器:

surveymonkey.com 的样本量计算器

raosoft.com 的样本量计算器

1.4.2如何处理结果

将您的信息插入其中一个计算器后,它将为您提供推荐的样本量。请记住,计算的样本量是达到您输入的置信度和误差范围的最小数量。如果您正在处理一项调查,您还需要考虑估计的回复率,以确定您需要发送多少调查。例如,如果您需要 100 个人的样本大小并且您的估计回复率为 10%,则您需要将调查发送给 1,000 个人以获得分析所需的 100 个回复。

现在您已经掌握了基础知识,请尝试使用样本量计算器进行一些计算,如果您需要复习定义,请参考此阅读材料。

1.5幅度误差

误差幅度是预期样本结果与实际总体差异的最大量。从技术上讲,误差范围定义了低于和高于样本平均结果的值范围。预计整个人口的平均结果将在该范围内。通过使用下面的一些示例,我们可以更好地理解误差范围。

1.5.1营销中的误差幅度

误差幅度在营销中也很重要。让我们以 A/B 测试为例。A/B 测试(或拆分测试)测试同一网页的两个变体,以确定哪个页面在吸引用户流量和产生收入方面更成功。获得收入的用户流量称为转化率。A/B 测试允许营销人员测试电子邮件、广告和登录页面,以找到有效和无效的数据背后的数据。营销人员使用置信区间(由转化率和误差幅度确定)来了解结果。

例如,假设您正在进行 A/B 测试以比较两个不同电子邮件主题行的有效性,以吸引人们打开电子邮件。您发现主题行 A:“专为您提供的特别优惠”与主题行 B:“不要错过这个机会”为 3% 相比,打开率提高了 5%。

这是否意味着主题行 A 优于主题行 B?这取决于你的误差范围。如果误差幅度为 2%,则主题行 A 的实际打开率或置信区间介于 3% 和 7% 之间。由于区间的下限与主题行 B 的结果重叠 3%,因此您无法得出主题行 A 和 B 之间存在统计显着差异的结论。根据您的测试得出结论时,检查误差范围很重要结果。

1.5.2计算幅度误差

您所需要的只是总体规模、置信水平和样本量。为了更好地理解此计算器,请查看以下术语:

  • 置信水平:一个百分比,表明您的样本准确反映更大人群的可能性
  • 人口:您从中提取样本的总数
  • 样本:代表人口的人口的一部分
  • 误差范围:预期样本结果与实际总体差异的最大量

在大多数情况下,使用 90% 或 95% 的置信水平。但是,根据您的行业,您可能希望设置更严格的置信水平。在某些行业,例如制药行业,99% 的置信水平是合理的。

在确定了总体规模、样本量和置信水平后,将信息插入误差范围计算器,如下所示:

1.5.3关键要点

误差范围用于确定您的样本结果与您可以调查或测试整个总体的结果的接近程度。误差范围可帮助您理解和解释现实生活中的调查或测试结果。当您获得要分析的数据时,计算误差范围特别有用。使用计算器计算误差幅度后,您将知道样本结果可能与整个总体的结果有多大差异。

2.了解干净的数据

每个数据分析师都希望在执行分析时使用干净的数据。在这部分课程中,您将了解干净数据和脏数据之间的区别。您将在电子表格和其他工具中练习数据清理技术。

2.1什么是脏数据

2.1.1脏数据的类型

在这里插入图片描述
在这里插入图片描述

2.1.2脏数据对业务的影响

要进一步了解脏数据对业务的影响,请在您首选浏览器的搜索栏中输入术语“脏数据”,以显示有关该主题的大量文章。以下是先前搜索中对某些行业引用的一些影响:

  • 银行业: 不准确导致公司损失收入的 15% 到 25% (来源)。
  • 数字商务:高达 25% 的 B2B 数据库联系人包含不准确信息(来源)。
  • 营销和销售:10 家公司中有 8 家表示脏数据阻碍了销售活动(来源)。
  • 医疗保健:重复记录可能占医院电子健康记录的 10%,甚至高达 20%(来源)。

2.2清理数据时要避免的常见错误

  • 不检查拼写错误:拼写错误可以像打字或输入错误一样简单。大多数情况下,可以检测到错误的拼写或常见的语法错误,但对于名称或地址等内容,情况会变得更加困难。例如,如果您正在处理客户数据的电子表格,您可能会遇到一个名为“John”的客户,他的名字在某些地方被错误地输入为“Jon”。电子表格的拼写检查可能不会标记这一点,所以如果你不仔细检查拼写错误并抓住它,你的分析就会有错误。
  • 忘记记录错误:记录错误可以节省大量时间,因为它可以通过向您展示如何解决这些错误来帮助您避免将来出现这些错误。例如,您可能会在电子表格的公式中发现错误。您发现其中一列中的某些日期格式不正确。如果您记下此修复程序,您可以在下次公式被破坏时参考它,并在故障排除方面抢占先机。记录您的错误还可以帮助您跟踪工作中的更改,以便在修复无效时可以回溯。
  • 不检查字段错误的值:当值输入错误的字段时,会发生字段错误的值。这些值的格式可能仍然正确,如果您不小心,这会使它们更难捕捉。例如,您可能有一个包含城市和国家/地区列的数据集。这些是相同类型的数据,因此很容易混淆。但是,如果您试图在国家列中查找西班牙的所有实例,而西班牙被错误地输入到城市列中,您将错过关键数据点。确保您的数据输入正确是准确、完整分析的关键。
  • 忽略缺失值:数据集中的缺失值会产生错误并给您不准确的结论。例如,如果您试图获取过去三个月的总销售额,但缺少一周的交易,您的计算将不准确。作为最佳实践,请尝试通过保持完整性和一致性来保持数据尽可能干净。
  • 仅查看数据的子集:在清理时考虑所有相关数据非常重要。这有助于确保您了解数据所讲述的整个故事,并确保您关注所有可能的错误。例如,如果您正在处理来自不同来源的鸟类迁徙模式数据,但您只清理了一个来源,您可能不会意识到某些数据是重复的。这将导致您稍后的分析出现问题。如果您想避免重复等常见错误,则数据的每个字段都需要同等关注。
  • 忘记业务目标:当您清理数据时,您可能会对数据集做出新的有趣的发现——但您不希望这些发现分散您对手头任务的注意力。例如,如果您正在使用天气数据来查找您所在城市的平均下雨天数,您可能还会注意到一些关于降雪的有趣模式。这真的很有趣,但这与您现在尝试回答的问题无关。好奇真是太好了!但尽量不要让它分散你手头任务的注意力。
  • 不修复错误的根源:修复错误本身很重要。但是,如果该错误实际上是更大问题的一部分,则您需要找到问题的根源。否则,您将不得不一遍又一遍地修复相同的错误。例如,假设您有一个跟踪每个人进度的团队电子表格。表格不断破裂,因为不同的人输入了不同的值。您可以继续一一解决所有这些问题,或者您可以设置表格以简化数据输入,以便每个人都在同一页面上。从长远来看,解决数据中错误的根源将为您节省大量时间。
  • 在数据清洗之前不分析系统:如果我们想清洗我们的数据并避免将来出现错误,我们需要了解您的脏数据的根本原因。想象一下,你是一名汽车修理工。在开始修车之前,您会找到问题的原因,对吗?数据也是如此。首先,您要找出错误的来源。可能是由于数据输入错误、未设置拼写检查、缺少格式或重复。然后,一旦您了解不良数据的来源,您就可以控制它并保持数据清洁。
  • 在数据清理之前不备份数据:在开始数据清理之前主动创建数据备份总是好的。如果您的程序崩溃,或者您的更改导致数据集中出现问题,您可以随时返回保存的版本并恢复它。备份数据的简单过程可以为您节省数小时的工作时间——最重要的是,让您头疼。
  • 在您的截止日期/流程中不考虑数据清理:所有好事都需要时间,其中包括数据清理。在完成您的流程并查看截止日期时,请务必牢记这一点。当您留出时间进行数据清理时,它可以帮助您为利益相关者获得更准确的 ETA 估计,并可以帮助您了解何时请求调整后的 ETA。

清理数据的十大方法:查看 Microsoft Excel 中数据清理的有序指南。

2.3电子表格中的数据清理功能

  • 条件格式
    条件格式化是一种电子表格工具,当数值满足特定条件时,可以改变单元格的显示方式。同样,当一个单元格不符合你所设定的条件时,它也能让你知道。像这样的视觉提示对于数据分析师来说非常有用,特别是当我们在一个有大量数据的大型电子表格中工作时。让某些数据点脱颖而出,使信息更容易理解和分析。
    “格式”-“条件格式”
    在这里插入图片描述

  • 删除重复
    “数据-删除重复项”

  • 格式化日期
    “选中日期列-格式-数字-日期”

  • 修复文本字符串子字符串
    在数据分析中,文本串是单元格中的一组字符,最常由字母组成。文本串的一个重要特征是其长度,即其中的字符数。子串是文本字符串的一个较小的子集。

  • 将文本拆分为列
    在这里插入图片描述
    “选中列-数据-将文本拆分为列”(默认delimiter)
    分隔符

  • CONCATENATE是一个将多个文本字符串连接成一个字符串的函数。
    eg:concatenate(A1,B1)

  • COUNTIF是一个函数,用于返回匹配指定值的单元格数量。
    在这里插入图片描述
    eg:countif(A1:A20,“<50”)

  • LEN是一个函数,它通过计算文本字符串包含的字符数来告诉你它的长度。
    在这里插入图片描述
    eg:len(A2)

  • LEFT是一个函数,它从文本字符串的左边给你一个固定数量的字符。
    在这里插入图片描述

  • RIGHT是一个函数,它从文本字符串的右边给你一个固定数量的字符。
    在这里插入图片描述

  • MID是一个函数,它给你一个来自文本字符串中间的片段。
    在这里插入图片描述

  • CONCATENATE,这是一个将两个或多个文本字符串连接起来的函数。
    在这里插入图片描述

  • TRIM是一个删除数据中前导、尾部和重复空格的函数。
    在这里插入图片描述

3.使用 SQL 清理数据

了解各种清理数据的方法可以使分析师的工作变得更加轻松。在这部分课程中,您将使用 SQL 从数据库中清理数据。您将探索如何在分析之前使用 SQL 查询和函数来清理和转换数据。

3.1电子表格和 SQL 在这里插入图片描述

  • CAST 可以用来转换从一种数据类型到另一种数据类型的任何内容。
    在这里插入图片描述
    在这里插入图片描述
  • CONCAT可以让你把字符串加在一起,创建新的文本字符串,可以作为唯一的键使用。
    在这里插入图片描述
  • COALESCE可以用来返回一个列表中的非空值。空值是缺失的值。如果你的表中有一个字段是可选的,那么对于那些没有合适的值放在那里的行,它的字段就会出现空值。
    在这里插入图片描述

4.验证和报告清洁结果

清洗数据是数据分析过程中的一个重要步骤。在这部分课程中,您将验证数据是否干净并报告数据清洗结果。有了经过验证的干净数据,您将为数据分析过程的下一步做好准备。

4.1数据清理验证:清单

4.1.1纠正最常见的问题

确保您确定了最常见的问题并加以纠正,包括:

  • 错误来源:您是否使用了正确的工具和功能来查找数据集中的错误来源?
  • 空数据:您是否使用条件格式和过滤器搜索空值?
  • 拼写错误的单词:你找到所有的拼写错误了吗?
  • 输入错误的数字:您是否仔细检查过输入的数字数据是否正确?
  • 多余的空格和字符:您是否使用TRIM功能删除了任何多余的空格或字符?
  • 重复项:您是否使用删除重复项函数或SQL 中的DISTINCT删除了电子表格中的重复项?
  • 不匹配的数据类型:您是否检查过数字、日期和字符串数据的类型转换是否正确?
  • 凌乱(不一致)的字符串:您是否确保所有字符串都是一致且有意义的?
  • 凌乱(不一致)的日期格式:您是否在整个数据集中一致地格式化日期?
  • 误导变量标签(列):您是否有意义地命名列?
  • 截断数据:您是否检查了需要更正的截断或缺失数据?
  • 业务逻辑:根据您对业务的了解,您是否检查过数据是否有意义?

4.1.2查看项目的目标

完成这些数据清理任务后,最好检查项目的目标并确认您的数据仍与该目标保持一致。这是一个持续的过程,您将在整个项目中执行 - 但在考虑这一点时,您可以牢记以下三个步骤:

  • 确认业务问题
  • 确认项目目标
  • 验证数据是否可以解决问题并与目标保持一致

5.数据分析师的软技能

  1. 演讲技巧
    尽管收集和分析数据是工作的重要组成部分,但以清晰简单的方式呈现您的发现同样重要。您将希望以一种让您的听众确切地知道他们应该得出什么结论的方式来构建您的发现。

  2. 协作
    作为一名数据分析师,您将被要求与许多团队和利益相关者(有时是内部或外部)合作,您分享想法、见解和批评的能力至关重要。重要的是您和您的团队(可能由工程师和研究人员组成)尽最大努力完成工作。

  3. 沟通
    数据分析师必须有效地沟通以获得他们需要的数据。同样重要的是,您能够以团队和业务领导者理解的语言与他们一起工作并进行清晰的沟通。

  4. 研究
    作为一名数据分析师,即使您拥有所有可用的数据,您仍然需要对其进行分析并从中得出重要的见解。要分析数据并得出结论,您需要进行研究以与行业趋势保持一致。

  5. 解决问题的能力
    解决问题是数据分析师工作的重要组成部分,您会遇到数据库、代码甚至数据捕获出现错误的时候。您将不得不适应并跳出框框思考,以找到这些问题的替代解决方案。

  6. 适应性
    在不断变化的数据世界中,您必须具有适应性和灵活性。作为一名数据分析师,您将在具有不同需求和知识水平的多个团队中工作,这需要您适应不同的团队、知识水平和利益相关者。

  7. 注重细节
    一行不正确的代码可能会导致一切崩溃,因此关注细节对于数据分析师来说至关重要。在理解和报告调查结果时,如果您专注于对您的受众重要的细节,这会有所帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值