数据科学概论

m0_72783611

已于 2022-12-04 19:01:09 修改

阅读量517

点赞数 3

文章标签：大数据

于 2022-11-16 14:26:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72783611/article/details/127845577

版权

第一章基础理论

一、DIKW：数据，信息，知识，智慧

二、数据维度：

从数据的结构化程度看：

1.数据化：直接可以用传统关系数据库存储和管理的数据。本质：先有结构，后有数据

2.非结构化：无法用关系数据库存储和管理的数据。本质：没有统一结构的数据

3.半结构化：经过一定转换处理后可以用传统关系数据库存储和管理的数据。本质：先有数据，后有结构。

从数据的加工程度看：

1.零次数据：原始数据

2.一次数据：干净数据（预处理过的数据）

3.二次数据：增值数据（分析处理的结果）

三、大数据的四个维度：速度快（Velocity），数据量大（Volume），类型多（Variety），价值密度低（Value）。

四、数据科学项目的流程：

第二章数据预处理

一、数据鉴别：消息鉴别码（鉴别本身），hash函数（鉴别本身），数字签名（鉴别主体）。
二、探索性数据分析（EDA）指对已有的数据在尽量少的先验假定下进行探索，并通过作图等手段探索数据的结构和规律的一种数据分析方法。
EDA与验证性分析方法的主要区别：

（1）EDA不需要事先假设
（2）EDA采用的方法更简单
（3）在一般数据科学项目中探索性分析在前验证性分析在后。
三、数据审计:
缺失值，噪声值，不一致值，不完整值
四、数据清洗：
缺失数据：丢弃，代替
冗余数据：过滤
噪声数据：*分箱（等深、等宽），聚类，回归

（1）等深分箱：每个箱中的成员个数相同（放的数相同）

例：

（2）等宽分箱：每个箱的取值范围相同

例：

离群点不是噪声数据（噪声 (Noise)是一个观测量中的随机错误或偏差，包括错误的值，偏离期望的孤立点;
离群点(Outlier)属于观测量，既有可能是真实数据产生的，也有可能是噪声带来的，但是总的来说是和大部分观测量之间有明显不同的观测值。）

五、数据变换：
（1）平滑处理：去除噪声数据
（2）特征构造：构造出新的特征
（3）聚集：进行粗粒度计算
（4）标准化（公式）（0-1标准化、z-score标准化）：将特征值按比例缩放，使之落入一个特定的区间。

（A）0-1标准化：对原始数据的线性变换，使结果落入[0-1]之间（max和min分别为样本数据的最大值和最小值；x与x*代表标准化处理前的值和处理后的值）

例题：

（B）z-score标准化：（经过处理后满足正态分布，即均值为0.标准差为1。μ为平均数，δ为标准差；x，z分别代表标准化处理前后的值）

例题：

（5）离散化：用去间或概念标签表示数据

第三章数据统计

一、概率分布：二项分布，泊松分布，正态分布

二、基本分析方法：相关分析，回归分析，分类分析，聚类分析

1.相关分析-相关分析的分类：

2.回归方程：一元，多元

（1）一元线性回归：

3.分类分析：

（1）决策树（信息增益、ID3）

（A）信息增益：按照某一属性，划分样本集前后的信息熵之差，信息增益越大，系统不缺定性越小，因此应该选择信息增益最大的属性作为分类依据。

（B）ID3算法：计算信息熵并得到信息增益，以此作为属性判别能力的度量。

4.聚类分析：K-means

例子：

直到簇相同停止迭代。

第四章机器学习

一、分类：

1.监督学习方法：分类，回归

2.半监督学习：半监督分类，半监督回归，半监督聚类，半监督降维

3.无监督学习方法：聚类，降维

4.强化学习：动态规划，时序差分，蒙特卡洛方法

二、机器学习模型：输入训练集--学习--输出--应用

三、数据准备：实体，文本，图（邻接矩阵）

四、KNN：距离指标，用来计算对象间的邻近程度。

1.欧式距离，曼哈顿距离：

五、人工神经网络：

一层以及简单的二层神经网络模型及计算

i1 ，i2为两个输入向量。

第二层的权重：

Δ=第一层的out值➖1

第五章数据可视化

一、类型

1.科学可视化（标量场，向量场，张量场）：主要面向自然科学

2.信息可视化：更关注抽象，非结构数据集合的可视化问题，一般有具体问题导向

如：文本，图表，层次结构，复杂系统

3.可视分析学：以实现人机协同完成可视化任务为主要目的的分析推理类学科。

二、模型：顺序模型，循环模型和分析模型

顺序模型：数据转换-可视化映射-视图变换-用户交互

可视化映射是整个可视化流程的核心。

三、视觉通道分类：位置、颜色、尺寸、形状。

第六章数据计算

一、计算模型：集中式，分布式，网格式，云计算

二、MapReduce：

客户端Client：提交Map Reduce作业job

JobTracker：协调作业的运行

Task Tracker：运行作业划分后的任务

有多个Map Task ，只有一个Reduce Task

Reduce Task的输入是所有MapTask的输出。

第七章数据管理

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
数据科学概论

期末复习
复制链接

扫一扫

m0_72783611 CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

166万+: 周排名

25万+: 总排名

1725: 访问

: 等级

67: 积分

1: 粉丝

6: 获赞

4: 评论

9: 收藏

私信

关注

热门文章

最新评论

大数据基础
CSDN-Ada助手: 恭喜你写了第三篇博客！标题为“大数据基础”，这是一个非常重要的主题。你的博客内容给读者提供了一些关于大数据基础知识的见解，非常有价值。接下来，我建议你可以进一步探讨一些实际应用案例，让读者更好地理解如何应用大数据基础知识解决实际问题。希望你能继续保持创作的热情，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
概率统计B
CSDN-Ada助手: 恭喜您写了第四篇博客！看到您坚持不懈地创作，我真心为您感到高兴。标题为“概率统计B”的博客听起来非常有趣，我期待着阅读您的新作品。在下一步的创作中，或许您可以考虑探索一些有趣的实际应用场景，或者深入解析一些复杂的概率统计问题。我相信您的才华和热情会继续为读者带来启发和乐趣。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
算法复习总结
CSDN-Ada助手: 恭喜作者写下了第5篇博客！标题“算法复习总结”听起来非常有趣。看到你持续地创作博客，真是令人佩服。不仅能够总结复杂的算法内容，而且还能以简明扼要的方式呈现给读者，实在是难能可贵。希望你能继续保持这样的创作热情和努力，为我们带来更多有关算法的精彩内容。若我能提个建议的话，或许可以尝试加入一些实际案例或个人经验，这样读者能更好地理解算法应用的实际场景。再次恭喜你，期待你下一篇博客的发布！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。