Part 1 数据分析概述与职业操守(占比3%)

【后续会持续更新CDA Level I&II备考相关内容,敬请期待】

【考试大纲】

在这里插入图片描述

【考试内容】

在这里插入图片描述

【备考资料】

1、 数据分析概念、方法论、角色 (占比1%)

1.1、数据分析基本概念

数据分析(Data Analysis):是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标,包含业务理解、数据采集、数据清洗、数据探索、数据可视化、数据建模、模型结果可视化、分析结果的业务应用等步骤在内的一整套分析流程。
数据挖掘(Data Mining):是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。通常也被称为数据知识发现(KDD Knowledge Discovery in Database),是自动或方便地提取模式,表示在大型数据库,数据仓库,Web,其他海量信息库或数据流中隐式存储或捕获的知识。
数字化工作(EDIT):EDIT是指数字化工作模型,以知识型业务人员的常规工作为场景,展现业务流程化、数据场景化、算法工具化、决策智能化。
![在这里插入图片描述](https://img-blog.csdnimg.cn/67d2bd842dee4fa691f61ce1810a27c1.png

  • 业务运行探索(Exploration)【是什么】:各项业务的运行状态(工厂的仪表盘)。指标体系——目标(O)、策略(S)、指标(M)、预报(趋势外推、预警)
  • 问题根因诊断(Diagnosis)【为什么】:数据的定向与定性结合,定位和分析问题。
    • 性质分析法——内外部因素,是否可控
    • 数量分析法——趋势维度、抽样调查、用户画像等
  • 业务策略指导(Instructiong)【怎么办】:制定业务策略指导,定制优化策略。
    • 知识库——产品知识库、客户标签库、场景标签库、渠道标签库
    • 策略库——产品-客群匹配策略、客群-渠道匹配策略、客群-场景匹配策略
    • 流程模板——执行体系、应用系统、数据系统
  • 智能算法工具(Tool)【靠什么】:上述工作均涉及到算法的应用
    • 数据模型——根据数据应用需求构建关系、维度、复杂网络等数据资产
    • 算法模型——决策类、识别类、估计类的机器学习模型
    • 优化模型——优化算法、流程挖掘

1.2、数据分析目的及其意义

1.2.1、数据分析的本质

数据分析包含现状分析、归因分析、预测分析等。可以认为数据分析涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数据分析是“重头戏”。

1.2.2、数据分析的目的

数据分析的目的:发现有价值的信息、提出结论、为业务发展提供辅助决策。它描述了”过去发生了什么“、”现在正在发生什么“和“未来可能发生什么”。

1.3、数据分析方法与流程

1.3.1、CRISP-DM方法论

跨行业数据挖掘标准流程CRISP-DM模型,是Cross Industry Standard Process -Data Mining的缩写,是当今数据挖掘界通用的流行标准之一。CRISP-DM模型将数据挖掘项目生命周期分为6个阶段,它们分别是业务理解(商业理解)、数据理解、数据准备、建模、模型评估、模型发布(模型实施)。
在这里插入图片描述

  • 商业理解(业务理解)
    旨在从商业角度理解项目的目标和要求,通过理论分析,把理解转化为数据挖掘问题的定义,转化为数据挖掘可操作的问题,用以指定以实现目标为目的的初步计划。
    • 确定业务目标:分析项目背景,以业务视角分析项目的目标和需求,确定业务角度的成功标准;
    • 项目可行性分析:分析拥有的资源、条件和限制,进行风险、成本和效益的评估;
    • 确定数据挖掘目标: 明确数据挖掘的目标和成功标准,数据挖掘目标和业务目标是不一样的,前者指的是在技术上,例如生成一颗决策树。
    • 提出项目计划:对整个项目做一个计划,初步确认用到的技术和工具。
  • 数据理解
    数据理解阶段开始于原始数据收集,然后是熟悉数据,表明数据质量问题,探索并初步理解数据,发觉有趣的子集以形成对隐藏信息的假设。
    • 收集原始数据:收集项目涉及的数据,如有必要,将数据导入数据处理工具中并做一些初步的数据 集成工作,生成相应的报告;
    • 数据描述: 对数据进行一些大致描述,例如记录数、属性数等并给出相应的报告;
    • 探索数据:对数据做一些建单的数据统计分析,例如关键属性的分布等;
    • 检查数据质量:包括数据是否完整,是否有错,受有缺失值等。
  • 数据准备
    数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(这些数据集指的是将要嵌入建模工具中的数据)。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求,对数据进行转换和清洗。
    • 数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;
    • 数据清洁:提高选择好的数据的质量,例如去除噪音,填充缺失值等;
    • 数据创建:在原有的数据基础上生成新的属性或记录;
    • 数据合并:利用表连接等方式将几个数据集合并到一起;
    • 数据格式化:把数据转换成适合数据挖掘处理的格式。
  • 建模
    在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种模型技术。一些技术对数据格式有特殊要求。因此常常需要返回数据准备阶段。
    • 选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;
    • 测试方案设计:设计某种测试模型的质量和有效性的机制;
    • 模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或多个模型;
    • 模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。
  • 模型评估
    进入项目的这个阶段,已经建立了一个或多个模型,从数据分析的角度来看,该模型似乎有很高的质量。在模型发布前,更为彻底的评估模型和检查建立模型的各个步骤,从而确保它真正的达到商业目标。此阶段的关键目的是决定是否存在一些重要的商业问题仍未得到充分的考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。
    • 结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;
    • 过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;
    • 确定下一步的工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段重新开始。
  • 模型实施(发布)
    模型的创建通常并不是项目的结尾。即使建模的目的是增加对数据的理解,所获得的理解也需要进行组织并以一种客户能够使用的方式呈现出来。
    • 实施计划:对在业务运作中部署模型做出计划;
    • 监督和维护计划:如何监督模型在实际业务中的使用情况,如何维护该模型;
    • 做出最终报告:项目总结,项目经验和项目结果;
    • 项目回顾:回顾项目的实施过程,总结经验教训。对数据挖掘的运行效果做一个预测。
      在这里插入图片描述
1.3.2、SEMMA方法论

是由SAS研究院开发的一款非常著名的数据挖掘与分析方法。SEMMA方法论CRISP-DM方法中的数据准备和建模环节进行了拓展。基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行模型构建,并检验模型的可用性和准确性。包含数据取样(Sample)、探索(Explore)、修改(Modify)、建模(Model)、模型评估(Access)五个步骤。
在这里插入图片描述
5个步骤的主要任务如下:
在这里插入图片描述

  • Sample:数据取样
    首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。
    其次,数据取样要注意数据的质量。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。
    如何从巨大的企业数据母体中取出哪些数据作为样本数据呢?如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。
  • Explore:数据特征探索、分析和预处理
    当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。
  • Modify:问题明确化、数据调整和技术选择
  • Model:模型研发、知识的发现
  • Access:模型和知识的总和解释和评价

1.4、数据分析的不同角色与职责

在这里插入图片描述

2、数据分析师职业道德与行为准则(占比1%)

2.1、数据分析师职业道德操守

  • 将数据产权、用户利益和机构利益置于个人利益之上,保护数据资产的安全性,遵循数据的真实性、可靠性,禁止技术沏茶、数据造假、非法交易、损害用户和机构利益。
  • 保持和加强自身职业道德操守以及同行的操守。不参与任何违法行为,包括但不限于:偷窃、欺骗、腐败、挪用或贿赂;不适用或滥用他人的产权,包括数据资产、知识产权;不参与诽谤和侮辱;不宽恕或帮助他人参与违法行为。

2.2、行为准则

如果说数据分析师的职业道德操守告诉了我们什么不应该做,什么应该做,那么数据分析师的行为准则就告诉了我们怎样去做。

尊重契约,按时按质完整交付工作成功,并对相关数据、代码、结果进行保密
履行后期义务与责任。完整交付结果后,对客户须进行后期解答、咨询、维护等服务;对机构业务须进行后期跟进、优化、指导建议等工作
专业、审慎、高效地完成各项数据分析的业务流程:

  • 全面了解业务背景、痛点、需求,作出分析建议,与团队充分沟通,确定合理的业务指标,获取符合要求的源数据。
  • 保持工具与算法的前沿性、适用性、高效性。根据业务需要,选择合理的工具、平台、系统及算法。
  • 不断迭代并优化业务指标与数据模型。
  • 撰写专业可视化报告,逻辑清晰的展示项目成功,并做出具有商业价值的建议。

3、大数据立法、安全、隐私(占比 1%)

原则:有关数据隐私与安全的立法,是一个单独的、严谨的领域,而且内容庞杂。要掌握数据安全法的立场与原则,然后去分析相关实际问题。
隐私与安全
1、隐私是一种个人的权力,即我的个人信息不被滥用,不被他人知道的权力;
2、安全是一种机制,即为了确保隐私权得到保护而设立的一种机制;
3、首先明确个人权力,然后设置保护机制去保护权力。

企业在收集用户的个人信息之前,必须向用户说明:将收集用户的哪些信息、收集到的信息将如何进行存储、存储的信息会如何使用、企业的联系方式等等。

用户享有的权力有:数据访问权、被遗忘权、限制处理权、数据携带权。
相关法律:

  • 欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)中企业和个人的数据使用权限。其核心目标是将个人数据保护深度嵌入组织运营,真正将抽象的保留理论转化为实实在在的行为实践。
  • 保护公民个人数据信息安全已写入刑法(《中华人民共和国刑法修正案(九)》),《中华人民共和国网络安全法》相关内容如下:
    • 网络运营者收集、使用个人信息必须符合合法、正当、必要原则;
    • 网络运营收集、使用公民个人信息的目的明确原则和知情同意原则;
    • 公民个人信息的删除权和更正权制度。
  • 2020年6月28日-30日,《中华人民共和国数据安全法》迎来初次审议。
    • 确立数据分级分类管理及风险评估,检测预警和应急处置等数据安全管理各项基本制度;
    • 明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任
    • 坚持安全与发展并重,锁定支持促进数据安全与发展的措施;
    • 建立保障政务数据安全和推动政务数据开发的制度措施。

立法参阅:

【以上,敬请指正】

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

两个猫崽子和你

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值