数据科学概论

第一章 基础理论

一、DIKW:数据,信息,知识,智慧

二、数据维度:

从数据的结构化程度看:

1.数据化:直接可以用传统关系数据库存储和管理的数据。本质:先有结构,后有数据

2.非结构化:无法用关系数据库存储和管理的数据。本质:没有统一结构的数据

3.半结构化:经过一定转换处理后可以用传统关系数据库存储和管理的数据。本质:先有数据,后有结构。

从数据的加工程度看:

1.零次数据:原始数据

2.一次数据:干净数据(预处理过的数据)

3.二次数据:增值数据(分析处理的结果)

三、大数据的四个维度:速度快(Velocity),数据量大(Volume),类型多(Variety),价值密度低(Value)。

四、数据科学项目的流程:e19c2eab5bed45689073a05a7c54f92e.png

第二章 数据预处理


一、数据鉴别:消息鉴别码(鉴别本身),hash函数(鉴别本身),数字签名(鉴别主体)。
二、探索性数据分析(EDA)指对已有的数据在尽量少的先验假定下进行探索,并通过作图等手段探索数据的结构和规律的一种数据分析方法。
EDA与验证性分析方法的主要区别:

(1)EDA不需要事先假设
(2)EDA采用的方法更简单
(3)在一般数据科学项目中探索性分析在前验证性分析在后。
三、数据审计:
缺失值,噪声值,不一致值,不完整值
四、数据清洗:
缺失数据:丢弃,代替
冗余数据:过滤
噪声数据:*分箱(等深、等宽),聚类,回归

(1)等深分箱:每个箱中的成员个数相同(放的数相同)

例:c363f150d0324a529539f80881150b31.jpeg

(2)等宽分箱:每个箱的取值范围相同

例:5b7191f4fce944d2b9a7633c98879547.jpeg

离群点不是噪声数据(噪声 (Noise)是一个观测量中的随机错误或偏差,包括错误的值,偏离期望的孤立点;
离群点(Outlier)属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。)

五、数据变换:
(1)平滑处理:去除噪声数据
(2)特征构造:构造出新的特征
(3)聚集:进行粗粒度计算
(4)标准化(公式)(0-1标准化、z-score标准化):将特征值按比例缩放,使之落入一个特定的区间。

(A)0-1标准化:对原始数据的线性变换,使结果落入[0-1]之间(max和min分别为样本数据的最大值和最小值;x与x*代表标准化处理前的值和处理后的值)

7700c0c04a89490693f8bd5f5cbb3de5.jpeg

例题:

 4eef28e3f76b484c98c68db8e0015686.png

(B)z-score标准化:(经过处理后满足正态分布,即均值为0.标准差为1。μ为平均数,δ为标准差;x,z分别代表标准化处理前后的值)

9dbc6415401b4422a4e8eda1b8b2d1c4.jpeg

例题:

24c006c400fb44f7b07fb9ce2019a112.png

(5)离散化:用去间或概念标签表示数据

第三章 数据统计

一、概率分布:二项分布,泊松分布,正态分布

二、基本分析方法:相关分析,回归分析,分类分析,聚类分析

1.相关分析-相关分析的分类:

84ce27adfd534afdb30f6bcf0daa36a6.png

 2.回归方程:一元,多元

(1)一元线性回归:

8b062a1c329c4727885ee200da32afd5.png

3.分类分析:

(1)决策树(信息增益、ID3)

(A)信息增益:按照某一属性,划分样本集前后的信息熵之差,信息增益越大,系统不缺定性越小,因此应该选择信息增益最大的属性作为分类依据。

(B)ID3算法:计算信息熵并得到信息增益,以此作为属性判别能力的度量。

4.聚类分析:K-means

61c75a2b2e7f4cf7b39ecf0603ce413d.png例子:82e49ea3fe6b4585817b7b937c280725.png

 a4ff452cfe8b4945b707ea723338b5ed.png

aeec7334d9d64f458816eb2bd2f869e0.png

直到簇相同停止迭代。 

第四章 机器学习

一、分类:

1.监督学习方法:分类,回归

2.半监督学习:半监督分类,半监督回归,半监督聚类,半监督降维

3.无监督学习方法:聚类,降维

4.强化学习:动态规划,时序差分,蒙特卡洛方法

二、机器学习模型:输入训练集--学习--输出--应用

三、数据准备:实体,文本,图(邻接矩阵)

四、KNN:距离指标,用来计算对象间的邻近程度。

1.欧式距离,曼哈顿距离:

c24b6cd5fb2144cf9b42084f8cc2c34c.png

五、人工神经网络:

一层以及简单的二层神经网络模型及计算

dd9c8368f49641ffb416a8e76d43fe81.png

i1 ,i2为两个输入向量。

第二层的权重:

f46e310e887d485ebd0dea66fbeffe0a.png

Δ=第一层的out值➖1

第五章 数据可视化

一、类型

1.科学可视化(标量场,向量场,张量场):主要面向自然科学

2.信息可视化:更关注抽象,非结构数据集合的可视化问题,一般有具体问题导向

如:文本,图表,层次结构,复杂系统

3.可视分析学:以实现人机协同完成可视化任务为主要目的的分析推理类学科。

二、模型:顺序模型,循环模型和分析模型

顺序模型:数据转换-可视化映射-视图变换-用户交互

可视化映射是整个可视化流程的核心。

三、视觉通道分类:位置、颜色、尺寸、形状。

第六章 数据计算

一、计算模型:集中式,分布式,网格式,云计算

二、MapReduce:

c09bc23ca9de4e29aa1f849ecbb14972.png

2e5a98acd8434682888142d52f89b9e9.png

客户端Client:提交Map Reduce作业job

JobTracker:协调作业的运行

Task Tracker:运行作业划分后的任务

有多个Map Task ,只有一个Reduce Task

Reduce Task的输入是所有MapTask的输出。

第七章 数据管理 

2f80ff11bbd544f3bdbdb591fcc4c4a9.png

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值