《CDA-LEVEL-II考试大纲》解读--PART1 数据采集与处理

搞点學術的研究生

已于 2023-06-03 08:16:38 修改

阅读量1k

点赞数 1

分类专栏：数据分析文章标签：数据挖掘数据分析大数据 python

于 2023-06-03 00:45:41 首次发布

本文链接：https://blog.csdn.net/cjx14060307101/article/details/130969597

版权

数据分析专栏收录该内容

5 篇文章 8 订阅

订阅专栏

文章讲述了作者作为数据分析师的工作现状，决定考取CDA数据分析师证书以提升自己。内容涵盖数据采集的一手与二手数据来源及其优劣，市场调研的基本步骤和样本选取，以及数据探索与可视化的意义。此外，还讨论了数据预处理的重要性，包括数据清洗、数据集成、数据变换和数据归约的方法。

摘要由CSDN通过智能技术生成

写在文章前

又是好久好久没有写博客了，数据分析师干了两年了，再这样下去我就成为了那2：8里面的8中的2：8的8了。我想成为带2的人，哈哈。工作闲暇之余，为了充实自己，打算考个CDA数据分析师证书，也不知道有用没用，但也真不知道该怎么提升自己的，那就只有花钱来买教训了。后续我会更新《CDA-LEVEL-II考试大纲》里面的各部分内容，尽情期待！

PART1 数据采集与处理

一、数据采集方法

【领会】
一手数据与二手数据来源渠道
优劣势分析
使用注意事项
【熟知】
一手数据采集中的概率抽样与非概率抽样的区别与优缺点
【运用】
概率抽样方法，包括简单随机抽样、分层抽样、系统抽样、分段抽样
明确每种抽样的优缺点
根据给定条件选择最可行的抽样方式
计算简单随机抽样所需的样本量

一手数据指的是直接从数据来源方获取的原始数据，而二手数据则是从数据经销商或数据平台购买的经过加工处理的数据。它们的来源渠道、优劣势如下表所示：

类别	一手数据	二手数据
来源渠道	1. 网站、APP、社交媒体等各种在线渠道；2. 客户反馈、投诉、建议等；3. 其他第一手来源，如调查问卷、采访、访谈、测量仪器等。	1. 数据经销商、数据平台；2. 大数据分析服务商、数据挖掘机构；3. 数据交换、采购平台。
优势	1. 数据精准度高；2. 原始数据更真实、可靠、准确；3. 数据更新迅速。	1. 数据量大，全面性强；2. 数据信息、特征、属性等进行加工处理方便；3. 数据分析工具更完善、易用。
劣势	1. 数据量较小，片面性强；2. 数据采集成本高，工作量大；3. 需要专业的数据处理和分析人员。	1. 数据来源不透明，数据品质难以保证；2. 数据标准化程度参差不齐；3. 不同数据来源的数据对比难度大。

同时我们在使用相关数据时，应注意一下事项：

对比不同数据来源的数据质量；
注意数据的有效性、真实性、可靠性；
注意数据的隐私保护，避免泄露；
因数据来源渠道不同，分析方法和工具也不同，需要制定相应的分析策略。

二、市场调研和数据录入

【熟知】
市场调研的基本步骤（提出问题、理论推演、收集材料、构建模型、归因分析）
样本选取方式的适应性及优缺点
问卷设计原理，问卷题型设置以及每类题型的数据编码及录入

市场调研是指通过一定的调查方法，获取相关市场信息并进行分析，以便为企业的市场决策提供支持和依据。市场调研的基本步骤包括：

提出问题：明确研究的目的与问题，明确调研的目标与重点；
理论推演：通过对市场情况及潜在因素的阐述和推算，为预测市场趋势提供基础。
收集材料：采用多种方式（如访谈、问卷调查、研究文献、信息查询等）获取调查对象的相关信息。
构建模型：建立数学模型或模拟实验，为对市场进行更深入的研究提供支持。
归因分析：将市场变化归结到其原因上，进行定量和定性分析。

市场调研的样本选取方式有多种，包括随机抽样、分层抽样、整群抽样等。不同的样本选取方式适用于不同的研究目的和样本类型。随机抽样具有简单、公正、具有代表性等优点，但缺点是代表性不够强，容易出现抽样误差；分层抽样可以提高代表性，但难度较大，成本较高；整群抽样具有代表性强、成本低等优点，但存在个体差异较大、数据分析复杂等问题。

问卷设计是市场调研中的重要环节，它涉及到问卷的题型设置、题目编码、数据录入等问题。问卷设计应遵循以下原则：

问题要清晰明确，避免使用含糊不清的词汇和定性的问题；
题目的选用要与调查对象和研究目的相适应，避免题目的重复和冗长；
选用适当的题型，包括单选题、多选题、判断题、填空题、开放式题等。

数据编码和录入是问卷设计中的重要环节，它可以通过电子化问卷来实现。在数据编码和录入中应注意以下问题：

题目的编码要简单明了，避免出现重复或遗漏；
应通过专业软件对数据进行录入和校验，避免出现数据错误和遗漏。
数据录入后要进行数据分析和解释，从而对市场进行更深入的理解和分析。

三、数据探索与可视化

【领会】
数据探索的目的与意义
常用数据可视化工具软件（EXCEL BI、SPSS、PYTHON 等）
【熟知】
数据探索与数据预处理之间的关系
数据探索常用数据描述方法：集中趋势分析、离中趋势分析、数据分布关系、图分析
数据探索常用数理统计方法：假设检验、方差检验、相关分析、回归分析、因子分析
【应用】
能够通过使用数据可视化工具（EXCEL BI、SPSS、PYTHON 等）来完成相关数据分析
项目的数据探索任务。（说明：考试中不会考核该部分工具和软件的使用方法）。

数据探索的目的是通过对数据进行分析、统计、可视化等手段，来揭示数据中隐藏的规律和关系，从而对数据进行探索和解读。
数据探索的意义在于：

发现问题和异常：通过数据探索可以发现数据中存在的问题和异常，提高数据质量和准确性；
描述数据的特征：通过对数据进行可视化和描述性统计分析，可以了解数据的分布、趋势、特征等信息；
发现变量之间的关系：数据探索可以揭示不同变量之间的关系，帮助研究人员深入理解研究对象所涉及的变量之间的相互作用；
挖掘数据的潜在价值：通过对数据进行探索，可以发现数据中的潜在价值和应用场景，为业务决策提供支持。
提高决策效果：通过数据探索，可以从不同角度对业务问题进行分析和解答，从而帮助决策者做出更为精准和有效的决策。

数据探索和数据预处理是数据分析过程中密不可分的两个步骤。数据探索旨在了解数据的特征、结构、分布等信息，揭示数据中隐藏的规律和趋势，为后续的数据分析提供基础。而数据预处理则是在数据探索的基础上，对数据进行清洗、变换、规范化等操作，使数据更适合进行分析。

常用的数据描述方法包括：

集中趋势分析：用均值、中位数、众数等统计量来描述数据分布的中心位置；
离中趋势分析：用标准差、方差、四分位差等统计量来描述数据分布的离散程度；
数据分布关系：用直方图、箱线图、概率密度图等图表来描述数据的分布形态、峰度、偏态等特征；
图分析：通过散点图、折线图等图表展示数据在时间、空间、品类等维度上的演变趋势。

常用的数理统计方法包括：

假设检验：用来验证某个假设是否成立，如判断两个样本的均值是否相等；
方差检验：用来检验数据的差异是否显著，如判断不同组之间的方差是否相等；
相关分析：用来研究两个变量之间的线性关系，如判断两个变量是否呈正相关或负相关；
回归分析：用来建立变量之间的函数关系，以预测因变量的值，如分析销售额与广告投入之间的关系；
因子分析：用来简化大量变量之间的复杂关系，提取出共同的因子，以便进行归纳分析。

四、数据预处理方法

【熟知】
数据预处理的基本步骤，包括数据集成（不同数据源的整合）、数据探索、数据变换（标准化）、数据归约（维度归约技术、数值归约技术），这部分内容不涉及计算，只需要根据需求明确可选的处理技术即可。
【应用】
数据清洗，包括填补遗漏的数据值（根据业务场景使用常数、中位数、众数等方法，不涉及多重查补的方法）、平滑有噪声数据（移动平均）、识别或除去异常值（单变量根据中心标准化值，多变量使用快速聚类），以及解决不一致问题（熟知概念即可），查重（只考核
SQL 的语句，不涉及其它语言）。

数据预处理

数据预处理是数据挖掘中最基础、最重要的步骤，也是决定数据挖掘结果的关键。其基本步骤包括数据集成、数据探索、数据变换和数据归约。
1. 数据集成：
数据集成是将不同数据源的数据整合到一个数据集中的过程。这些数据可以来自于不同的数据库、文件或网络，数据集成的目标是将这些数据转换成一个一致的格式，以便于数据挖掘和分析。数据集成的方法包括：平面文件导入、数据库连接、批量导入、API调用等。
2. 数据探索：
数据探索是对数据进行初步的分析和评估，以便于理解数据的特点、结构和价值。常用的数据探索方法包括：可视化处理、统计分析、数据抽样、离群点检测等。
3. 数据变换：
数据变换是对原始数据进行处理和转换，以便于后续的分析和建模。常用的数据变换方法包括：数据清洗、缺失值处理、重复值处理、数据离散化、归一化、标准化等。
4. 数据归约：
数据归约是将原始数据进行压缩或简化，以便于处理大规模数据和提高处理效率。常用的数据归约技术包括维度归约技术和数值归约技术。维度归约技术主要是将数据的维度降低，如PCA主成分分析、SVD奇异值分解等；数值归约技术主要是将数据的大小降低，如数据采样、聚类、抽样等。

综上所述，数据预处理是数据挖掘过程中最为重要的步骤之一，在整个数据分析中占据了很大的比重，通过数据预处理步骤的设计合理和实施严格，可以为后续的数据挖掘分析打下良好的基础，提高数据挖掘的准确性和效率。

数据清洗

数据清洗中的常用方法：

1. 填补遗漏的数据值
在数据清洗过程中，常常会发现数据集中存在缺失值的情况。在这种情况下，需要使用一些方法来填补遗漏的数据值。常见的方法包括：常数填充：使用一个常数来填充缺失值，比如使用 0 或者平均值等。中位数填充：使用中位数来填充缺失值。众数填充：使用众数来填充缺失值。前向填充：使用缺失值前面的已知数据来填充缺失值。后向填充：使用缺失值后面的已知数据来填充缺失值。
2. 平滑有噪声数据
在数据清洗过程中，常常会发现数据集中存在噪声的情况。在这种情况下，需要使用一些方法来平滑有噪声数据。常见的方法包括：移动平均：使用一定时间窗口内的平均值来平滑数据。滤波：使用滤波器来去除噪声，常用的滤波器包括中值滤波器和高斯滤波器。
3. 识别或除去异常值
在数据清洗过程中，常常会发现数据集中存在异常值的情况。在这种情况下，需要使用一些方法来识别或除去异常值。常见的方法包括：单变量识别：根据中心标准化值来识别异常值。多变量识别：使用快速聚类算法来识别异常值。盒须图：使用盒须图来识别异常值。
4. 解决不一致问题
在数据清洗过程中，常常会发现数据集中存在不一致的情况。在这种情况下，需要使用一些方法来解决不一致问题。常见的方法包括：数据重构：将不一致的数据进行重构或者重新采样。数据转换：将不一致的数据进行转换，比如将大小写转换为小写。数据合并：将不一致的数据进行合并或者分裂。
5. 查重
在数据清洗过程中，常常会发现数据集中存在重复的数据。在这种情况下，需要使用一些方法来查重。常用的方法是使用 SQL 的语句进行查重，比如使用 SELECT DISTINCT 或者 GROUP BY 等语句。

(“The darker the sky, the brighter the stars.吃的苦中苦，让为人上人”FIGHTING. . . .)

搞点學術的研究生

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《CDA-LEVEL-II考试大纲》解读--PART1 数据采集与处理

工作闲暇之余，为了充实自己，打算考个CDA数据分析师证书，也不知道有用没用，但也真不知道该怎么提升自己的，那就只有花钱来买教训了。后续我会更新《CDA-LEVEL-II考试大纲》里面的各部分内容，尽情期待！
复制链接

扫一扫

专栏目录