数据科学导论学习小结——其一

welldky

已于 2022-06-27 16:44:07 修改

阅读量2k

点赞数 12

分类专栏：数据科学文章标签：学习 big data 数据挖掘数据分析

于 2022-05-23 16:05:17 首次发布

本文链接：https://blog.csdn.net/qq_54925298/article/details/124916293

版权

数据科学专栏收录该内容

3 篇文章 1 订阅

订阅专栏

数据科学导论学习小结——其一

这是笔者大学二年级必修科目《数据科学基础》个人向笔记整理的第一部分，包含前三个章节。本笔记内容基于清华大学出版社《数据科学导论-探索数据的奥秘》的相关知识。对于同样学习本门学科的读者可以此做参考方便您的学习；对于其他对本学科或相关领域感兴趣的读者，也可以在对本篇的阅读中激发兴趣。

第一章绪论

1.1 数据时代

（1）数据时代的三大支撑技术

数据的获取：传感技术
数据的流动传播：互联网与通信技术
数据的长期保存：存储技术
数据科学成为继实验、理论、计算以后人类探索世界的“第四范式”

（2）数据时代面临的挑战

①伦理与隐私
②数据分析与信息挖掘（不局限于结构化数据分析的Data Science）
③数据泄露：使用区块链技术使得数据无法随意复制，使得验证信息与拥有信息分离

1.2 基本概念

（1）数据

对现实中某种事物或事物之间关系进行数量或性质表征与记录的，都可以称为数据；即以定性或定量的方式来描述事物、事件的符号记录。

（2）大数据

有观点：当数据量大到需要用并行计算工具处理时

大数据的4V特点：
①Volume 体量大（完备性）
②Velocity 产生速度快而时效性高（实时性）
③Variety 类型繁多（多维度）
④Veracity 高度真实而价值密度低

相较于传统数据分析的三大变革：
①由随机样本转为全体数据（相对全体）
②由精确性转为混杂性
③由因果关系转为相关关系

（3）数据科学

应用科学的方法、流程、算法和系统，从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科。所有对数据的采集、分类、存储、处理、分析、呈现均可纳入范畴。

1.3 数据科学项目涉及人员及其任务

①出资方：出于商业或公共利益，提供资金支持
②客户/用户：最终利益
③数据科学家：设定和执行分析战略
④数据架构师：数据管理和存储
⑤运营工程师：管理基础设施，部署最终成果

1.4 数据科学项目处理流程

（1）确定问题

将用户层面的问题抽象化为数据科学层面的问题。

（2）制定目标

用户层面与数据科学层面均有涉及，力求明确、具体、可验证、可量化、可实现的目标。

（3）搜集数据

（4）探索性数据分析（EDA）

了解数据特性，并形成一些初步假设，为后续建模提供基础与准备。

（5）建立模型

基于任务目标，结合EDA结果，选择并构建合适的模型。

（6）性能评价

关注三方面问题：
①用什么评价指标？（依据任务选择）
②指标的参照标准是什么？（他人的结果、空模型）
③在什么数据对象上进行评价？（学习的数据、新数据）

常见的模型评价指标举例：
①分类问题：混淆矩阵等
②特征提取：ROC曲线下面积AUC等
③统计学分析：p值、置信区间等

空模型评价：空模型指的是最简单的模型，用于确定性能的下限，如果一个方法没有达到最基本的空模型性能，就不应该接受。
举例1：X疾病发病率0.1%，某模型达到99%诊断准确率：
如果建立一个对所有数据都判定为健康的空模型，则正确率达到99.9%，所以不接受。
举例2：对150个鸢尾花数据（50个setosa，50个versicolor，50个Virginia）实施“是setosa”和“不是setosa”的二分类，能实现总体判别准确率65%：
如果建立一个对所有数据都判定为不是setosa的空模型，则正确率达到66.7%，所以不接受。

（7）结果展示

（8）部署模型

1.5 数据科学项目的数据流

①数据获取（数据方案设计和实施）
②EDA（预处理和初步分析）
③信息挖掘（建模）
④解释与可视化

第二章问题与目标

问题和目标均涉及现实世界的用户层面和抽象世界的数据科学层面。

2.1 用户层面的问题与目标

面对现实世界的具体问题，制定相应用户层面的目标，越具体、明确越好。

2.2 数据科学层面的问题与目标

把用户层面的问题或任务抽象为分类、预测、排序/打分、关联化/去关联化、特征提取、聚类。

（1）分类

依据一定的规则进行两个或两个以上的类别划分，获得的输出是针对输入数据所分配的类别标签。
举例：“真/假”、“阳性/阴性”、“类别Ⅰ/类别Ⅱ/类别Ⅲ”

（2）预测

基于已知数据对将来状态做出估计判断，预测结果可以是类别标签，也可以是连续的数量值。
举例：依据以往7天天气，预测未来7天天气

（3）排序/打分

对于实体的某种或某些属性进行数量化描述或进行排序。
举例：根据绩效找出前10名优秀员工

（4）关联化/去关联化

在众多实体特征中寻找有相互关联的特征以便互相替代，从而实现特征的相互“解释”或数据降维；而对于非关联的特征则需要予以保留，以实现对样本的全面描述。

（5）特征提取

基于实体的众多特征，构造最反应目标的，或最能指示某种分类或排序的复合特征。

（6）聚类

根据样本间的相似度将样本分组。

2.3 例题

1.电商网站将用户消费能力分为高、中、低三个等级，此任务是：分类问题
2.电商网站根据用户的的消费数据进行自然的分组，不事先规定等级，此任务是：聚类
3.电商网站根据用户的历史数据判断每个用户下一个年度的消费金额，此任务是：预测

第三章数据获取

确定数据科学层面的问题和目标后，需要有明确的前提假设，基于前提假设设计的数据构成，明确总体和抽样方案，再收集数据。

3.1 前提假设与数据方案设计

（1）前提假设

根据任务提出前提假设，即研究的问题或任务可能与哪些因素相关。

（2）数据方案设计

根据前提假设设计数据方案，即前提假设需要用什么样的数据方案或实验支持。其中包括指标量化、采集范围等细节。

（3）数据获取的可行性分析

对设计的数据方案进行可行性分析，即现有条件能否获取所需的数据。需要具体的获取方法，认真评估方法的可行性，如果不能通过则需要重新审视、调整方案。

（4）确定数据构成

根据数据方案确定数据构成，数据应该为方便后期处理的“结构化”数据。结构化数据可以理解为一张不能再细分的二维表，表中一行代表一个存在且唯一的个体，一列代表一个属性（满足第一范式）。
举例：贷款客户甄别任务（“普通客户/高风险客户”二分类）的结构化数据：

客户	贷款期数	贷款目的	贷款金额	可支配月收入与月供比	…
客户1
客户2
…

3.2 总体与抽样

确定数据构成后需要面临具体的数据搜集。

（1）总体与个体

总体：待研究对象的全体
个体：总体中的每一个对象

（2）样本

样本：在无法获取总体的情况下，从总体中抽取出来的子集
样本容量：样本包含的个体数量
①样本容量不能过小
②抽样时不能有预设的偏见，必须是无偏抽样

（3）无偏抽样

无偏抽样（代表性抽样）：抽样过程中不受个体性质的影响

（4）抽样偏差

抽样偏差：从总体中非随机性抽样带来的系统性错误
举例：幸存者偏差是典型的抽样偏差，其过度关注"幸存了某些经历"的人事物，忽略那些没有幸存的（可能因为无法观察到），造成错误的结论。
要避免抽样偏差，通常的做法是随机抽样。

（5）随机抽样

随机抽样：总体中的个体是否被抽样并非确定，即不因为个体的某个或某些性质一定被抽中或一定不被抽中，而是每个个体都以一定的概率被抽样。

3.3 混杂因素与 A/B Testing

（1）混杂因素与辛普森悖论

混杂因素：不是考察对象，但却可能会对结果造成影响的因素
排除混杂因素：对两相比较的样本集做好潜在混杂因素，甚至所有非考察因素的匹配
辛普森悖论：在某个条件下的两组数据，分别讨论时都会满足某种性质，可一旦合并考虑，却可能导致相反的结论（一般都是由于没有充分排除混杂因素影响所引起）
举例：课程网站的回头率与明星微博回头率数据比较：

学历信息	某明星微博回头率	课程网站回头率
大学及以上	95%（76/80）	92%（231/250）
中学及以下	71%（193/270）	34%（17/50）
全部	77%（269/350）	83%（248/300）

（2）双盲实验与 A/B Testing

A/B Testing：专门设计一些对比试验，在其他所有特征都匹配（或一致）的情况下，只观察一个变量（通常只有两个选项）的不同取值对结果的影响
双盲实验：临床医学研究中检验新药物新技术是否有效的方法
举例：“A服用我们的产品治好了老寒腿”为什么不能作为产品有效的科学依据
①样本容量过小（只有一人）
②抽样存在幸存者偏差（是否吃过药的都治好）
③未考虑混杂因素（是否接受过其他治疗）

小结

笔记的第一部分包含了数据科学项目处理流程中确定问题、制定目标、搜集数据方面的相关理论内容与介绍。本节内容偏理论，同样学习该门学科的读者应该熟练掌握，大部分读者了解思想即可。更为具体也是更为重要的内容将在接下来的笔记分享。

welldky

关注

12
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
数据科学导论学习小结——其一

数据科学导论学习小结——其一这是笔者大学二年级必修科目《数据科学基础》个人向笔记整理的第一部分，包含前三个章节。本笔记内容基于清华大学出版社《数据科学导论-探索数据的奥秘》的相关知识。对于同样学习本门学科的读者可以此做参考方便您的学习；对于其他对本学科或相关邻域感兴趣的读者，也可以在对本篇的阅读中激发兴趣。文章目录数据科学导论学习小结——其一第一章绪论1.1 数据时代数据时代的三大支撑技术数据时代面临的挑战1.2 基本概念数据大数据数据科学1.3 数据科学项目涉及人员及其任务1.4 数据科学项目处理
复制链接

扫一扫