数据科学导论学习小结——其一

数据科学导论学习小结——其一

这是笔者大学二年级必修科目《数据科学基础》个人向笔记整理的第一部分,包含前三个章节。本笔记内容基于清华大学出版社《数据科学导论-探索数据的奥秘》的相关知识。对于同样学习本门学科的读者可以此做参考方便您的学习;对于其他对本学科或相关领域感兴趣的读者,也可以在对本篇的阅读中激发兴趣。



第一章 绪论

1.1 数据时代

(1)数据时代的三大支撑技术

数据的获取:传感技术
数据的流动传播:互联网与通信技术
数据的长期保存:存储技术
数据科学成为继实验、理论、计算以后人类探索世界的“第四范式”

(2)数据时代面临的挑战

①伦理与隐私
②数据分析与信息挖掘(不局限于结构化数据分析的Data Science)
③数据泄露:使用区块链技术使得数据无法随意复制,使得验证信息与拥有信息分离

1.2 基本概念

(1)数据

对现实中某种事物或事物之间关系进行数量或性质表征与记录的,都可以称为数据;即以定性或定量的方式来描述事物、事件的符号记录。

(2)大数据

有观点:当数据量大到需要用并行计算工具处理时

大数据的4V特点:
①Volume 体量大(完备性
②Velocity 产生速度快而时效性高(实时性
③Variety 类型繁多(多维度
④Veracity 高度真实而价值密度低

相较于传统数据分析的三大变革
①由随机样本转为全体数据(相对全体)
②由精确性转为混杂性
③由因果关系转为相关关系

(3)数据科学

应用科学的方法、流程、算法和系统,从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科。所有对数据的采集、分类、存储、处理、分析、呈现均可纳入范畴。

1.3 数据科学项目涉及人员及其任务

①出资方:出于商业或公共利益,提供资金支持
②客户/用户:最终利益
③数据科学家:设定和执行分析战略
④数据架构师:数据管理和存储
⑤运营工程师:管理基础设施,部署最终成果

1.4 数据科学项目处理流程

(1)确定问题

用户层面的问题抽象化数据科学层面的问题。

(2)制定目标

用户层面数据科学层面均有涉及,力求明确、具体、可验证、可量化、可实现的目标。

(3)搜集数据

(4)探索性数据分析(EDA)

了解数据特性,并形成一些初步假设,为后续建模提供基础与准备。

(5)建立模型

基于任务目标,结合EDA结果,选择并构建合适的模型。

(6)性能评价

关注三方面问题:
①用什么评价指标?(依据任务选择)
②指标的参照标准是什么?(他人的结果、空模型)
③在什么数据对象上进行评价?(学习的数据、新数据)

常见的模型评价指标举例:
①分类问题:混淆矩阵
②特征提取:ROC曲线下面积AUC
③统计学分析:p值、置信区间

空模型评价:空模型指的是最简单的模型,用于确定性能的下限如果一个方法没有达到最基本的空模型性能,就不应该接受
举例1:X疾病发病率0.1%,某模型达到99%诊断准确率:
如果建立一个对所有数据都判定为健康的空模型,则正确率达到99.9%,所以不接受。
举例2:对150个鸢尾花数据(50个setosa,50个versicolor,50个Virginia)实施“是setosa”和“不是setosa”的二分类,能实现总体判别准确率65%:
如果建立一个对所有数据都判定为不是setosa的空模型,则正确率达到66.7%,所以不接受。

(7)结果展示

(8)部署模型

1.5 数据科学项目的数据流

①数据获取(数据方案设计和实施)
②EDA(预处理和初步分析)
③信息挖掘(建模)
④解释与可视化


第二章 问题与目标

问题和目标均涉及现实世界的用户层面抽象世界的数据科学层面

2.1 用户层面的问题与目标

面对现实世界的具体问题,制定相应用户层面的目标,越具体、明确越好。

2.2 数据科学层面的问题与目标

把用户层面的问题或任务抽象为分类预测排序/打分关联化/去关联化特征提取聚类

(1)分类

依据一定的规则进行两个或两个以上的类别划分,获得的输出是针对输入数据所分配的类别标签
举例:“真/假”、“阳性/阴性”、“类别Ⅰ/类别Ⅱ/类别Ⅲ”

(2)预测

基于已知数据对将来状态做出估计判断,预测结果可以是类别标签,也可以是连续的数量值
举例:依据以往7天天气,预测未来7天天气

(3)排序/打分

对于实体的某种或某些属性进行数量化描述或进行排序
举例:根据绩效找出前10名优秀员工

(4)关联化/去关联化

在众多实体特征中寻找有相互关联的特征以便互相替代,从而实现特征的相互“解释”数据降维;而对于非关联的特征则需要予以保留,以实现对样本的全面描述。

(5)特征提取

基于实体的众多特征,构造最反应目标的,或最能指示某种分类或排序的复合特征。

(6)聚类

根据样本间的相似度将样本分组。

2.3 例题

1.电商网站将用户消费能力分为高、中、低三个等级,此任务是:分类问题
2.电商网站根据用户的的消费数据进行自然的分组,不事先规定等级,此任务是:聚类
3.电商网站根据用户的历史数据判断每个用户下一个年度的消费金额,此任务是:预测


第三章 数据获取

确定数据科学层面的问题和目标后,需要有明确的前提假设,基于前提假设设计的数据构成,明确总体和抽样方案,再收集数据。

3.1 前提假设与数据方案设计

(1)前提假设

根据任务提出前提假设,即研究的问题或任务可能与哪些因素相关。

(2)数据方案设计

根据前提假设设计数据方案,即前提假设需要用什么样的数据方案或实验支持。其中包括指标量化采集范围等细节。

(3)数据获取的可行性分析

对设计的数据方案进行可行性分析,即现有条件能否获取所需的数据。需要具体的获取方法,认真评估方法的可行性,如果不能通过则需要重新审视、调整方案。

(4)确定数据构成

根据数据方案确定数据构成,数据应该为方便后期处理的“结构化”数据。结构化数据可以理解为一张不能再细分的二维表,表中一行代表一个存在且唯一的个体,一列代表一个属性(满足第一范式)。
举例:贷款客户甄别任务(“普通客户/高风险客户”二分类)的结构化数据:

客户贷款期数贷款目的贷款金额可支配月收入与月供比
客户1
客户2

3.2 总体与抽样

确定数据构成后需要面临具体的数据搜集。

(1)总体与个体

总体:待研究对象的全体
个体:总体中的每一个对象

(2)样本

样本:在无法获取总体的情况下,从总体中抽取出来的子集
样本容量:样本包含的个体数量
①样本容量不能过小
②抽样时不能有预设的偏见,必须是无偏抽样

(3)无偏抽样

无偏抽样(代表性抽样):抽样过程中不受个体性质的影响

(4)抽样偏差

抽样偏差:从总体中非随机性抽样带来的系统性错误
举例:幸存者偏差是典型的抽样偏差,其过度关注"幸存了某些经历"的人事物,忽略那些没有幸存的(可能因为无法观察到),造成错误的结论。
要避免抽样偏差,通常的做法是随机抽样

(5)随机抽样

随机抽样:总体中的个体是否被抽样并非确定,即不因为个体的某个或某些性质一定被抽中或一定不被抽中,而是每个个体都以一定的概率被抽样。

3.3 混杂因素与 A/B Testing

(1)混杂因素与辛普森悖论

混杂因素:不是考察对象,但却可能会对结果造成影响的因素
排除混杂因素:对两相比较的样本集做好潜在混杂因素,甚至所有非考察因素的匹配
辛普森悖论:在某个条件下的两组数据,分别讨论时都会满足某种性质,可一旦合并考虑,却可能导致相反的结论(一般都是由于没有充分排除混杂因素影响所引起)
举例:课程网站的回头率与明星微博回头率数据比较:

学历信息某明星微博回头率课程网站回头率
大学及以上95%(76/80)92%(231/250)
中学及以下71%(193/270)34%(17/50)
全部77%(269/350)83%(248/300)

(2)双盲实验与 A/B Testing

A/B Testing:专门设计一些对比试验,在其他所有特征都匹配(或一致)的情况下,只观察一个变量(通常只有两个选项)的不同取值对结果的影响
双盲实验:临床医学研究中检验新药物新技术是否有效的方法
举例:“A服用我们的产品治好了老寒腿”为什么不能作为产品有效的科学依据
①样本容量过小(只有一人)
②抽样存在幸存者偏差(是否吃过药的都治好)
③未考虑混杂因素(是否接受过其他治疗)


小结

笔记的第一部分包含了数据科学项目处理流程中确定问题制定目标搜集数据方面的相关理论内容与介绍。本节内容偏理论,同样学习该门学科的读者应该熟练掌握,大部分读者了解思想即可。更为具体也是更为重要的内容将在接下来的笔记分享。

  • 12
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值