大数据分析学习杂记（上）

最新推荐文章于 2023-01-11 20:48:03 发布

时光机丶

最新推荐文章于 2023-01-11 20:48:03 发布

阅读量448

点赞数

本文链接：https://blog.csdn.net/qq_39293290/article/details/93390590

版权

什么是数据

数据是人类对所感兴趣的对象特征的记录，数据用于描述事实，具有时间和空间属性

大数据

大数据 =海量数据（交易数据、交互数据）+针对海量数据处理的解决方案

大数据不仅仅指的是数据量庞大，更为重要的是数据类型复杂

大数据的4V特征
在这里插入图片描述

数据挖掘

-从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。
◆ 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构；
◆ 数据挖掘的核心任务：对数据特征和关系的探索和建立。
◆ 根据探索的关系有没有目标将数据挖掘方法分成两类：有指导的学习和无指导的学习。
◆ 数据挖掘的作用：知识发现
在这里插入图片描述
数据挖掘的功能

机器学习在大型数据库上的应用称为数据挖掘

数据挖掘重在发现知识，模式识别重在认识事物。

数据挖掘是统计分析方法的延伸和扩展

数据挖掘的主要方法
分类、聚类、相关规则、回归、其他…

数据挖掘流程

在这里插入图片描述

问题识别—明确系统和组织中的关键问题
数据理解
数据准备—预处理，利于后续操作
模型建立
模型评价—包括功能性评价和服务型评价（简单验证法、交叉验证法等）
部署应用

离群点
离群点是显著不同于数据集中其余部分的数据

离群点检测方法的分类
 基于统计（statistical-based)的方法
 基于距离 (distance-based)的方法
 基于偏差(deviation-based)的方法
 基于密度(density-based)的方法
 高维数据的异常探测

基于统计的离群点检测
离群点是一个对象，关于数据的概率分布模型，它具有低概率
在这里插入图片描述

基于距离的离群点检测
一个对象是离群的，如果它远离大部分其它对象。

两种策略
①采用给定邻域半径，依据点的邻域中包含的对象多少来判定离群点
② 利用k最近邻距离的大小来判定离群

不平衡数据级联算法
在这里插入图片描述

监督学习

基于含有输入和输出的训练集，建立由输入变量估计输出变量的模型，并给出模型相关参数的计算方法
在这里插入图片描述
回归学习
回归是典型的统计方法，用于描述两个相互影响的变量群之间的依存关系，它也可以用于分类，但更多的是用于连续变量间的关系估计。

监督学习概述
在这里插入图片描述
K近邻

k近邻(k-Nearest Neighbor, kNN)学习是一种常用的监督学习方法

对于某个给定的测试样本，找到训练集中距离最近的k个样本，对于分类问题使用“投票法”获得预测结果，对于回归问题使用“平均法”获得预测结果。还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。
在这里插入图片描述
决策树

决策树基于树结构来进行预测

在这里插入图片描述

决策树学习的关键在于如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高

经典的属性划分方法：
信息增益、增益率、基尼指数

“信息熵”是度量样本集合纯度最常用的一种指标，假定当前样本集合中第类样本所占的比例为，则的信息熵定义为
在这里插入图片描述

决策树—停止分裂条件
一般性条件：
– 最小节点数：数据量少时，容易强化噪声数据作用；
降低树生长复杂度
– 熵或者基尼值小于阀值：数据纯度大
– 决策树的深度达到指定的条件
– 所有特征已经使用完毕，不能继续进行分裂

决策树—剪枝
– 过拟合：参数过多，样本少、模型的复杂度要高于实际的问题
– 欠拟合：模型的复杂度较低，无法很好的学习到数据背后的规律
– 泛化能力：模型对新数据的预测能力、性能评价
– 收敛（不收敛）：算法有能力找到局部的或者全局的最小值
泛化能力较弱，可能出现过拟合

奥卡姆剃刀原则(Occam’s Razor)：能用简单的方法完成任务的尽量不要复杂的

在这里插入图片描述
剪枝的基本策略
– 预剪枝
– 后剪枝

随机森林
随机森林算法是一种组合多个决策树进行分类的方法。

每次随机选择一些特征，独立建立决策树，重复这个过程，如此建立许多彼此独立的决策树，最终的分类结果由产生的这些树共同决定。
在这里插入图片描述
集成学习(ensemble learning)通过构建并结合多个学习器来提升性能

人工神经网络
神经元

感知机

误差逆传播算法（Error BackPropagation, 简称BP）是最成功的训练多层前馈神经网络的学习算法.

支持向量机
线性模型：在样本空间中寻找一个超平面, 将不同类别的样本分开.
在这里插入图片描述

无监督学习

根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称之为无监督学习。

无监督学习的任务：寻找数据集中的规律性

关联分析
关联分析用于发现隐藏在大型数据集中有意义的联系，所发现的模式通常用关联准则或频繁项集的形式表示。
在这里插入图片描述

关联规则挖掘

关联规则-Apriori算法

Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。

Apriori算法两个步骤
– 通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于户设定的阈值的项集；
– 利用频繁项集构造出满足用户最小置信度的规则。
在这里插入图片描述

聚类分析
聚类分析(Cluster Analysis)是一个将数据集中的所有数据，按照相似性划分为多个类别（Cluster, 簇）的过程；

常用的聚类分析方法：
❑ 划分法（Partitioning Methods）：以距离作为数据集中不同数据间的相似性度量，将数据集划分成多个簇。
◼ 属于这样的聚类方法有：k-means、k-medoids等。
❑ 层次法（Hierarchical Methods）：对给定的数据集进行层次分解，形成一个树形的聚类结果。
◼ 属于这样的聚类方法有：自顶向下法、自底向上法。
 密度聚类

时光机丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据分析学习杂记（上）

什么是数据数据是人类对所感兴趣的对象特征的记录，数据用于描述事实，具有时间和空间属性大数据大数据 =海量数据（交易数据、交互数据）+针对海量数据处理的解决方案大数据不仅仅指的是数据量庞大，更为重要的是数据类型复杂大数据的4V特征数据挖掘-从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。◆ 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义...
复制链接

扫一扫