最新大数据技术期末复习重点，不挂科看这里~(1)，看这篇足矣了

最新推荐文章于 2024-05-31 14:54:28 发布

2401_84166258

最新推荐文章于 2024-05-31 14:54:28 发布

阅读量937

点赞数 28

分类专栏：程序员文章标签：大数据

本文链接：https://blog.csdn.net/2401_84166258/article/details/138563442

版权

程序员专栏收录该内容

184 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

3.数据预处理方法

4.数据清洗有哪些方法？

5.数据集成要考虑的问题有哪些？

6.数据变换主要涉及哪些内容？

三.数据挖掘

1.数据挖掘的概念

2.数据挖掘常用算法

3.分类

4.聚类

5.关联规则

一、大数据概念

====================================================================

1.什么是大数据，大数据的意义是什么？大数据的特征是什么？

大数据是由云计算技术支撑，对海量数据进行推测预演的技术。

大数据局意义是通过关联找到规则，有数据可说，说数据可靠。

大数据有四大特征：

体量大：数据规模十分庞大，根据新摩尔定律每十八个月翻一倍
价值高：数据的价值密度低但有巨大潜在价值
速度快：随着计算机和网络技术的发展，数据采集，储存，分析，处理的速度越来越快
种类多：数据来源广、维度多、关系杂

2.大数据的技术支撑是什么？

大数据的技术支支撑是云计算。Hadoop的出现为大数据带来了曙光，HDFS为海量数据提供了存储，MapReduce为海量数据提供了并行计算，大数据使得人工智能水平得到很大的提升。

3.大数据的处理方法有哪些？

数据的采集：主要通过数据抓取和导入、传感设备的信息采集获取数据
导入和预处理：导入是将海量数据导入到大型分布式数据库中，数据预处理是指在进行数据挖掘之前，对原始数据进行数据清洗、数据集成、数据变换等操作，以达到挖掘算法进行知识获取所要求的最低规范
统计与分析：可以使用R语言对海量数据进行分析和汇总
数据挖掘：通过对提供的数据进行分析，查找特定类型的模式或趋势

二、数据采集与预处理

=======================================================================

1.Kafka数据采集

2.数据预处理原理

通过数据预处理操作，使残缺的数据完整，将错误的数据纠正，把多余的数据去除，挑选出所需的数据进行数据集成。

数据的预处理方法一般有数据清洗、数据集成、数据变换等。

3.数据预处理方法

数据的预处理方法一般有数据清洗、数据集成、数据变换等。

数据清洗是数据预处理的首要方法。通过填充缺失值、光滑噪声数据、识别和删除离群点等方法使残缺的数据完整，将错误的数据纠正，把多余的数据去除，挑选出所需的数据
数据集成是合并多个数据源的数据，存放在同一个数据仓库。
数据变换是将数据变换成统一适合挖掘的形式。

4.数据清洗有哪些方法？

数据清洗的方法有填充缺失值、光滑噪声数据、识别和删除离群点等。

填充缺失值：有以下几个处理方法，忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、用属性均值填充缺失值、用同类样本属性均值填充缺失值、使用最可能的值填充缺失值
光滑噪声数据：数据光滑技术的具体内容包括分箱、回归、聚类

4.1.分箱法

定义：通过观察某一数据周围的值来光滑有序数据的值，按照取值的不同划分可分为按箱平均值平滑、按箱中值平滑、以及按箱边界值平滑

4.2.回归

定义：利用某一拟合函数（如回归函数）来光滑数据

4.3.聚类

通过聚类分析检测出离群点。将类似的值组织成群或簇，落在簇之外的点就是离群点

5.数据集成要考虑的问题有哪些？

数据集成要考虑的问题有四个，分别是模式集成和对象匹配问题、冗余问题、元组重复问题、数据值冲突的检测与处理问题

6.数据变换主要涉及哪些内容？

数据变换主要涉及的内容包括有光滑。聚集、数据泛化、规范化、属性构造

三.数据挖掘

======

1.数据挖掘的概念

数据挖掘（DM）是从大量的、有噪声的、不完全的、模糊和随机的数据中，提取出隐含在其中的具有潜在价值的信息的过程。知识发现（KDD）包含数据挖掘（DM）

2.数据挖掘常用算法

数据挖掘常用方法有分类、聚类、关联规则、时间序列预测等

分类：分类是在给定数据基础上构建分类函数或分类模型，目的是将未知类别规类为给定类别种的某一类
聚类：聚类是将抽象对象的集合分为相似对象组成的多个类的过程，聚类过程生成的簇称为一组对象的集合，
关联规则：关联规则是信任度与支持度分别满足用户给定阈值的规则
时间序列预测：时间序列是将统计指标的数值按时间顺序排列所形成的数列。时间序列预测是将时间数列所反映的事件发展过程进行引申外推，预测发展趋势的一种方法。

3.分类

分类过程为学习和分类。第一步是建立模型，第二部根据模型进行分类。

3.1K最近邻算法

K最近邻算法的思想是：如果一个样本在特征空间的k个最相似样本中的大多数属于某一类别，则该样本属于该类别

3.2决策树

略

3.3贝叶斯分类

贝叶斯定理：P(A|B)=P(A) * P(B|A) / P(B)

根据贝叶斯定理

3.4SVM(支持向量机算法)

超平面、超曲面、、、略

4.聚类

4.1聚类与分类的区别

分类：分类模型中存在的数据的是已经分类好的，分类的目的是从训练样本集中提取出分类的规则，用于对未知类别的数据进行归类

聚类：预先不知道目标数据有关类的信息，需要以某种度量为标准，将所有数据划分到各个簇中，因此聚类称为无监督学习

4.2聚类过程

数据准备——>特征选择——>特征提取——>聚类

4.3层次聚类算法

层次聚类算法的思想是对给定待聚类数据集合进行层次划分解,典型算法有BIRCH算法.

BIRCH算法：

4.4划分聚类算法

划分聚类思想是将给定的数据集分裂为k个簇，然后反复迭代到每个簇不再改变即得出聚类结果

4.4.1K-means****算法(K均值算法)

4.5****基于密度的聚类算法

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

4.5****基于密度的聚类算法

[外链图片转存中…(img-SDwxrTEE-1715136649327)]
[外链图片转存中…(img-ggvaTWsf-1715136649328)]
[外链图片转存中…(img-VFQiJX6c-1715136649328)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

2401_84166258

关注

28
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
最新大数据技术期末复习重点，不挂科看这里~(1)，看这篇足矣了

大数据是由云计算技术支撑，对海量数据进行推测预演的技术。大数据局意义是通过关联找到规则，有数据可说，说数据可靠。大数据有四大特征：体量大：数据规模十分庞大，根据新摩尔定律每十八个月翻一倍价值高：数据的价值密度低但有巨大潜在价值速度快：随着计算机和网络技术的发展，数据采集，储存，分析，处理的速度越来越快种类多：数据来源广、维度多、关系杂。
复制链接

扫一扫