大数据解析与应用导论

最新推荐文章于 2024-06-18 20:32:42 发布

头发浓密且帅气

最新推荐文章于 2024-06-18 20:32:42 发布

阅读量898

点赞数 25

分类专栏：大数据文章标签：大数据算法

本文链接：https://blog.csdn.net/WDNMDhhhhhhh/article/details/135619370

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、绪论
1.1统计学基础概念
1.2 人工智能简介
1.3 机器学习
1.4 深度学习
二、数据预处理与特征工程
2.1 数据预处理
2.2 特征工程
三、数据降维
3.1 数据降维简介
3.2 主成分分析算法
四、回归分析
4.1回归分析
4.2 最小二乘回归
4.3主元回归
五、聚类分析
5.1 基本思想与概念
5.2 相似性度量
5.3 K-均值聚类算法简介
六、判别分析
6.1 基本理论
6.2 贝叶斯判别
6.3 Fisher判别
七、支持向量机
7.1 线性可分支持向量机
7.2 支持向量回归
八、典型相关分析
8.1 基本概念
8.2 典型相关分析算法思想小结
九、决策树与随机森林
9.1 决策树基本内容
9.2 决策树算法介绍
9.3 随机森林介绍
十、神经网络
10.1 基本概念
10.2 深度神经网络
10.3 宽度学习（BLS）简介
十一、卷积神经网络
11.1 卷积神经网络基础
十二、循环神经网络
12.1 循环神经网络基础
12.2 循环神经网络进阶
十三、自编码器
13.1 自编码器简介
13.2稀疏自编码器
13.3 去噪自编码器
13.4 变分自编码器
十四、分支主题
14.1 集成学习简介
14.2集成学习：Bagging
14.3集成学习：Boosting

一、绪论
1.1统计学基础概念
统计学是一种利用数学理论来进行数据分析的技术，是人工智能研究的基础，一些基本的降维、聚类、判别分析的算法都是建立在统计学理论推导之上的。
数学期望：简称期望，是试验中每次可能结果的概率乘以其结果的总和，是基本的统计学特征之一。
方差：方差用来描述随机变量的分散程度。
协方差：反映二维随机变量之间的相互关系。

1.2 人工智能简介
人工智能（Artificial Intelligence ，AI）是指通过模拟、延伸和扩展人类智能的技术手段，使计算机系统能够执行类似人类智能的任务。这包括理解自然语言、学习、推理、规划、感知和运动控制等方面的能力。人工智能的目标是使计算机系统能够像人类一样思考、学习和解决问题，从而提高生产力、改善生活质量和推动科学研究。
应用领域：感知、学习、认知。
学派：符号主义、连接主义、行为主义。

1.3 机器学习
机器学习的范式、监督学习、无监督学习、强化学习。机器学习的三要素：模型、策略、算法。

1.4 深度学习
概念：深度学习是一种基于人工神经网络的机器学习方法，它通过多层次的神经网络结构来学习和提取数据的特征，以实现对复杂数据的高效处理和分析。深度学习的核心思想是通过多层次的非线性变换，将输入数据映射到输出数据，从而实现对数据的抽象表示和学习。
主流的深度学习框架：Pytorch、Tensorflow、Keras、Theano、Caffe。

二、数据预处理与特征工程
2.1 数据预处理
据数据常见问题：数据缺失、数据异常、数据重复、数据不均衡、量纲差异、数据清洗。
数据清洗指对脏数据进行处理，提高数据的可信度。
数据变换：简单函数变换、数据归一化、连续数据离散化、属性构造、采样、类型转换。

2.2 特征工程
特征提取：特征提取是一种数据降维的手段，它一般通过原始数据映射到低维空间以在信息缺失尽量小的情况下获得一系列新的特征。
特征选择：也是一种降维手段，与特征提取的区别在于特征选择通过在原来的特征集合中，选出一组能够包含模型所需要的重要信息的特征子集，不会产生新的特征。

三、数据降维
3.1 数据降维简介
数据降维是一种通过某种数学变换把高维空间的数据投影到低维空间，从而是数据结构得到简化的同时又不损失太多信息的方法。

3.2 主成分分析算法
是一种多变量统计方法，其主要思想是通过线性空间变换求取主成分变量，将高位数据空间投影到低维主成分空间。

四、回归分析
4.1回归分析
回归分析是一种统计学方法，用于研究自变量和因变量之间的关系。它可以帮助我们理解和预测变量之间的相互作用。

4.2 最小二乘回归
最小二乘法是一种数学优化技术。它通过最小误差的平方和来寻找数据的最佳函数匹配。

4.3主元回归
主元回归是一种统计建模方法，它将主成分分析（PCA）与多元线性回归相结合。主元回归的基本思想是，首先对自变量进行主成分分析，将原始的自变量转换为一组新的主成分（即主元），然后使用这些主成分来建立线性回归模型。

五、聚类分析
5.1 基本思想与概念
聚类分析是一种无监督学习的方法，其基本思想是将数据集中的样本划分为若干个不同的组，使得同一组内的样本之间相似度高，不同组之间的样本相似度低。换句话说，聚类分析的目标是发现数据中的内在结构，将相似的样本归为一类。

5.2 相似性度量
相似性度量是用于衡量两个对象之间相似程度的指标。在机器学习和数据挖掘领域，相似性度量被广泛应用于比较和分类对象，以及在聚类和推荐系统中寻找相似的项目或用户。相似性度量可以基于不同的属性和特征进行计算，例如欧氏距离、余弦相似度、皮尔逊相关系数等。这些度量方法可以用于比较数值型数据、文本数据、图像数据等不同类型的数据。

5.3 K-均值聚类算法简介
K-均值聚类算法是一种常用的无监督学习算法，用于将数据点划分为不同的簇。该算法的目标是将数据点分成K个簇，使得每个数据点都属于与其最近的簇中心。

六、判别分析
6.1 基本理论
判别分析，又称为线性判别分析 (Linear Discriminant Analysis，LDA)，是一种根据所研究对象的若干个指标的观测结果判定其所属类型的数据统计方法。判别分析又称为“分辨法”，基本原理是已知类别的情况下，利用多个预测指标 (Predictor Variables) 建立判别函数或概率公式来判断个体所属类别。

6.2 贝叶斯判别
贝叶斯的统计思想:假定对研究对象样本已经有了一定的认识，这种认识用先验概率分布来描述，之后抽取其中一个样本，用这个样本来修正已有的认识，也就是由先验概率分布，得到后验概率分布。很多统计推断都通过后验概率分布来进行，将贝叶斯思想用于判别分析就得到贝叶斯判别法。

6.3 Fisher判别
Fisher 判别是种先将数据由高维向低维投影，再根据距离判别的一种方法。借助方差分析的思想构造判别函数(相当于一种投影)，使组间区别最大、组内区别最小，然后代人新样本数据，根据判断临界值确定分类。其中判别函数是指一个关于指标变量的函数。每一个样本在指标变量上的观察值代人判别函数后可以得到一个确定的函数值。判别准则是指对样本的判别函数进行分类的法则。Fisher 判别分析也叫做线性判别式分析。

七、支持向量机
7.1 线性可分支持向量机
支持向量机是一种有监督的二分类模型，线性可分支持向量机是其最基本的形式支持向量机需要找到一个最优超平面，将数据集的正负样本完全分离。如何定义“最优是本章的关键问题。本节通过介绍线性可分的概念引出“最优”的基本思想，再通过介绍支持向量中“间隔”的概念来分析“最优”的目标函数，最后介绍线性可分支持向量机的求解过程。

7.2 支持向量回归
支持向量回归（Support Vector Regression, SVR）是一种基于支持向量机（SVM）的回归算法。与传统的线性回归方法不同，SVR的目标是通过寻找一个最优的超平面，使得数据点与该超平面之间的间隔尽可能大，从而进行回归预测。

八、典型相关分析
8.1 基本概念
典型相关分析(Canonical Correlation Analysis，CCA) 是很常见也很经典的一种数据挖掘关联关系的算法，自提出以来被广泛使用，经久不衰。本节对其基本概念做了一个全面的阐述，介绍了 CCA 的历史、用途、思想及一些简单的应用前景。

8.2 典型相关分析算法思想小结
求解的算法可简单分为多步:第一步求取的目标是各个随机向量的线性组合系数，使得对应的典型变量和相关系数达到最大。得到的是最大的相关系数为第一典型相关系数，且称有最大相关系数的这对典型变量为典型相关变量。如果这部分得到的结果还不足以解释原始变量，可以进行第二步，即再次估计组合相关系数，找出第二大的典型相关系数，称为第二典型相关系数，称有第二大相关系数的这对典型变量为第二典型相关变量。设两组的变量个数为p和q，其中 pg，那么寻求典型变量的过程可一直重复，直到得到力对典型变量。

九、决策树与随机森林
在日常生活中、人们每天都面临着各种决策，如今天适不适合打羽毛球，在夏日天气里应该怎样挑选可口的西瓜等。在进行决策时需要根据各个相关因素来做出最后的选择，这其实与决策树的思想不谋而合，结合多个决策树即可构成随机森林进行综合决策。首先介绍决策树的思想和算法原理，然后在决策树的基础上闹述随机森林算法，最后以D体案例来介绍决策树与随机森林的应用及求解过程。

9.1 决策树基本内容
决策树基于监督学习建立，是机器学习中的一个十分常用的分类方法。以是否打羽毛球为例，由于各种因素的影响，并不是每天都适合打球。这样对“是否打羽毛球”这个问题活行决策时，需要考虑各种因素，并进行一系列的子决策。如当羽毛球场馆有空位时，可以直接进行决策，即选择在室内打，当场馆没有空位时，就要进行室外活动，这时则需要根据天气、风速和气温等因素继续进行子决策，最终判断这天是否能够打羽毛球。

9.2 决策树算法介绍
决策树从叶子节点开始基于某种信息指标(如信息增益) 对实例的属性进行测试，根据测试结果对样本进行划分，此后递归进行划分直至划分结束。实际上对于所有可能的样本属性中选取最优的划分组合是一个 NP 难问题，在算法中实际上是采用贪婪的算法选取一个局部最优划分。

9.3 随机森林介绍
随机森林是由 Leo Breiman 于 2001 年提出的一种集成学习模型，结合了其在 1996 年提从面得到更为全面的决策出的 Bagging 集成学习理论与 H。在 1998 年提出的随机子空间方法。随机森林，顾名思义是用随机的方式建立的一个森林，随机森林的基本单元是决策树，是通过集成学习思想将多棵没有关联的树集成的一种算法。它包含多个由 Bagging 集成学习技术训练得到的决策树当输人待分类的样本时，最终的分类结果由单个决策树的输出结果投票决定。

十、神经网络
10.1 基本概念
神经网络(Neural Network，NN) 是一种模仿生物神经网络的结构和功能的数学模型在传统的编程方法中我们告诉计算机做什么，每个任务都有精确的定义，计算机按照人为规定的程序执行:相比之下，神经网络能够从观测数据中学习，通过数据拟合模型，自己找出解决问题的方法。神经网络具有优秀的适应性与拟合能力，在多个领域中都发挥着重要的作用。

10.2 深度神经网络
深度神经网络（Deep Neural Network, DNN）是一种由多个神经网络层组成的人工神经网络模型。与传统的浅层神经网络相比，深度神经网络具有更多的隐藏层，因此能够学习到更加复杂的特征表示，从而提高了对复杂数据模式的学习能力。
深度神经网络通常由输入层、若干隐藏层和输出层组成。每个隐藏层都包含多个神经元，而每个神经元都与前一层的所有神经元相连，通过学习权重和偏差参数来实现特征的提取和数据的映射。

10.3 宽度学习（BLS）简介
随着对神经网络研究的不断深入，人们逐渐发现了深度神经网络结构中所包含的种种缺陷。为了解决深度神经网络中存在的各种问题，宽度学习系统 (Broad Learning System.BLS)应运而生。本节中将对 BLS 的产生背景及其算法原理做简要介绍，并通过基于MNIST数据集的实际案例说明 BLS的优越性。

十一、卷积神经网络
卷积神经网络(Convolutional Neural Network，CNN) 是一种具有局部连接、参数共享等特点的深度神经网络，相比于其他神经网络的结构，卷积神经网络更适合图像特征的学习与表达，是目前计算机视觉领域应用最广泛的模型之一。作为卷积神经网络领域的一个重要研究分支，卷积神经网络提供了一种端到端的训练模型，通过梯度下降的方式进行训练得到的模型能够有效学习到图像的特征。

11.1 卷积神经网络基础
卷积和池化十卷积神经网络中两个核心的操作。卷积的基本概念有步长、填充、通道。
池化实际上是一种降采样方式，一般在卷积过程之后进行。池化层的主要作用为保留主要特征的情况下减少参数核计算量，防止过拟合。与卷积不同的是，池化操作并没有需要学习的参数。

十二、循环神经网络
12.1 循环神经网络基础
循环神经网络是一种强大的时序数据处理网络，其可以考虑到变量在时序方向上的性质。在本节中，首先分析循环神经网络 RNN 独到的特点以及用途，并介绍 RNN 的结构及工作方式，最后针对 RNN 存在的长期依赖问题，介绍 RNN 的一个最经典的变体一一长短期记忆网络 LSTM的结构及计算方式。

12.2 循环神经网络进阶
作为一种强大的时间序列建模算法，循环神经网络通过隐层节点周期性的连接，来捕捉序列化数据中动态信息和前后依赖信息。循环神经网络及其各种变体在各应用领域发挥着重要的作用。以循环神经网络为基础的各种时间序列建模算法可用于时间序列预测、时间序列分类、语义识别、自然语言处理、视频行为识别等多种任务。

十三、自编码器
13.1 自编码器简介
自编码器（Autoencoder）是一种无监督学习的神经网络模型，其目的是将输入数据进行压缩和重构，从而实现数据的特征提取和降维。
自编码器通常由编码器和解码器两部分组成。编码器将原始数据映射到一个低维的隐藏表示（也称为编码），而解码器则将该隐藏表示映射回原始数据空间，从而重构出与原始数据尽可能接近的输出自编码器的优点在于可以自动学习数据的特征表示，能够处理高维数据和非线性数据，且无需标签信息。然而，自编码器也存在一些挑战，如容易受到过拟合的影响，对网络结构和超参数的选择较为敏感等。近年来，一些新的自编码器结构和训练技巧不断涌现，不断提升了自编码器的性能和应用范围。

13.2稀疏自编码器
稀疏自编码器(Sparse Autoencoder，SAE) 是普通自编码器的一种常见变种，其通过对隐层节点施加稀疏化约束以获得更加鲁棒的特征。在本节中，首先介绍了稀疏自编码器和堆栈自编码器 (Stacked Autoencoder，SAE) 的结构和工作方式，进而引出堆栈稀疏自编码器。

13.3 去噪自编码器
堆栈稀疏自编码器因其强大的功能在工业、医学等领域中被广泛使用，可以通过堆栈稀疏自编码器对光谱空间特征进行无监督学习，然后用于高光谱图像分类;也可以应用在旋转机械故障诊断中;或者用于乳腺癌组织病理学的细胞核分类。

13.4 变分自编码器
变分自编码器是另一种自编码器的拓展算法。自编码器分为两个部分：编码器和解码器。编码器可以是多层感知机、卷积神经网络。输人经过编码器得到潜变量，类似于降维.得到输入的主要成分，然后再通过解码网络恢复出原始输入。但是自编码器模型的潜变量不满足特定的分布，我们无法去凭空构造一个维度相同的潜变量让解码器生成一个与输人类似的样本。而变分自编码器在编码的过程中，对潜变量增加了额外约束，使得模型具有了更强的生成能力。

十四、分支主题
14.1 集成学习简介
集成学习 (ensemble learning) 通过构建并结合多个个体学习器 (individual learner)来完成学习任务，也被称为基于委员会的学习 (committee-based learning)。由于一般来说个体学习器相比于集成学习器性能较差，所以又把个体学习器称作弱学习器或初级学习器，把集成学习器称作强学习器或次级学习器。简单来说集成学习是一种比较通用的技术框架或思想，通过按照不同的思路来组合基础模型，从而达到“兄弟齐心，其利断金”“众人拾柴火焰高”的目的。

14.2集成学习：Bagging
算法简介：Bagging(Bootstrap AGGregation) 算法，又称引导聚集，是 Breiman 于 1996 年提出的一种最基本的集成学习算法之一。它是一种并行式集成学习的框架，这里的并行是指不同动子模型可以分别在不同的 CPU 或者服务器上进行训练，训练时间得以大大缩短，因此并行亿是Bagging非常流行的重要原因。

14.3集成学习：Boosting
Boosting 算法的起源Valiant 等人提出的 PAC (Probably Approximately Correct)学习模型，这个模型定义了两个概念一-强学习和弱学习，是弱学习器和强学习器的思想来源。Kearns和 Valiant 提出了强学习与弱学习等价的问题，并证明了只要有足够的数据，弱学习算法就能通过集成的方式生成任意高精度的估计。1990 年，Schapire 首次提出一种多项式级的算法，即最初的 Boosting 算法。这种算法可以将弱分类规则转化成强分类规则年后，Freund 提出一种效率更高的 Boosting 算法。1995 年，Boosting 算法有了一次突破性的发展，Freund和 Schapire 提出了 AdaBoost (Adaptive Boosting) 算法，成为 Boosting算法中最具代表性的算法。