大数据分析学习杂记(上)

什么是数据

数据是人类对所感兴趣的对象特征的记录,数据用于描述事 实,具有时间和空间属性

大数据

大数据 =海量数据(交易数据、交互数据)+针对海量数据处理的解决方案

大数据不仅仅指的是数据量庞大,更为重要的是数据类型复杂

大数据的4V特征
在这里插入图片描述

数据挖掘

-从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合。
◆ 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有 意义的结构;
◆ 数据挖掘的核心任务:对数据特征和关系的探索和建立。
◆ 根据探索的关系有没有目标将数据挖掘方法分成两类:有指导 的学习和无指导的学习。
◆ 数据挖掘的作用:知识发现
在这里插入图片描述
数据挖掘的功能
在这里插入图片描述

机器学习在大型数据库上的 应用称为数据挖掘

数据挖掘重在发现知识, 模式识别重在认识事物。

数据挖掘是统计分析方法的延伸和扩展

数据挖掘的主要方法
分类、聚类、相关规则、回归、其他…

数据挖掘流程

在这里插入图片描述

  • 问题识别—明确系统和组织中的关键问题
  • 数据理解
  • 数据准备—预处理,利于后续操作
  • 模型建立
  • 模型评价—包括功能性评价和服务型评价(简单验证法、交叉验证法等)
  • 部署应用

离群点
离群点是显著不同于数据集中其余部分的数据

离群点检测方法的分类
 基于统计(statistical-based)的方法
 基于距离 (distance-based)的方法
 基于偏差(deviation-based)的方法
 基于密度(density-based)的方法
 高维数据的异常探测

基于统计的离群点检测
离群点是一个对象,关于数据的概率分布模型,它具有 低概率
在这里插入图片描述

基于距离的离群点检测
一个对象是离群的,如果它远离大部分其它对象。

两种策略
①采用给定邻域半径,依据点的邻域中包含的对象多少来判 定离群点
② 利用k最近邻距离的大小来判定离群

不平衡数据级联算法
在这里插入图片描述

监督学习

基于含有输入和输出的训练集,建立由输入变量估计输出变 量的模型,并给出模型相关参数的计算方法
在这里插入图片描述
回归学习
回归是典型的统计方法,用于描述两个相互影响的变量群之间的依存 关系,它也可以用于分类,但更多的是用于连续变量间的关系估计。

监督学习概述
在这里插入图片描述
K近邻

k近邻(k-Nearest Neighbor, kNN)学习是一种常用的监 督学习方法

对于某个给定的测试样本,找到训练集中距离最近的k个 样本,对于分类问题使用“投票法”获得预测结果,对于 回归问题使用“平均法”获得预测结果。还可基于距离远 近进行加权平均或加权投票,距离越近的样本权重越大。
在这里插入图片描述
决策树

决策树基于树结构来进行预测

在这里插入图片描述

决策树学习的关键在于如何选择最优划分属性。一 般而言,随着划分过程不断进行,我们希望决策树 的分支结点所包含的样本尽可能属于同一类别,即 结点的“纯度”(purity)越来越高

经典的属性划分方法:
信息增益、增益率、基尼指数

“信息熵”是度量样本集合纯度最常用的一种指标,假定当 前样本集合 中第 类样本所占的比例为 , 则 的信息熵定义为
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
决策树—停止分裂条件
一般性条件 :
– 最小节点数:数据量少时,容易强化噪声数据作用;
降低树生长复杂度
– 熵或者基尼值小于阀值:数据纯度大
– 决策树的深度达到指定的条件
– 所有特征已经使用完毕,不能继续进行分裂

决策树—剪枝
– 过拟合:参数过多,样本少、模型的复杂度要高于实际的问题
– 欠拟合:模型的复杂度较低,无法很好的学习到数据背后的规律
– 泛化能力:模型对新数据的预测能力、性能评价
– 收敛(不收敛):算法有能力找到局部的或者全局的最小值
泛化能力较弱,可能出现过拟合

奥卡姆剃刀原则(Occam’s Razor): 能用简单的方法完成任务的尽量不要复杂的

在这里插入图片描述
剪枝的基本策略
– 预剪枝
– 后剪枝

随机森林
随机森林算法是一种组合多个决策树进行分类的方法。

每次随机选择一些特征,独立建立决策树,重复 这个过程,如此建立许多彼此独立的决策树,最终的分类结 果由产生的这些树共同决定。
在这里插入图片描述
集成学习(ensemble learning)通过构建并结合多个学习 器来提升性能
在这里插入图片描述
人工神经网络
神经元
在这里插入图片描述
感知机
在这里插入图片描述
误差逆传播算法(Error BackPropagation, 简称BP)是最 成功的训练多层前馈神经网络的学习算法.
在这里插入图片描述
支持向量机
线性模型:在样本空间中寻找一个超平面, 将不同类别 的样本分开.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

无监督学习

根据类别未知(没有被标记)的训练样本解决模式识别中的各 种问题,称之为无监督学习。

无监督学习的任务:寻找数据集中的规律性

关联分析
关联分析用于发现隐藏在大型数据集中有意义的联系,所发现的模式 通常用关联准则或频繁项集的形式表示。
在这里插入图片描述
在这里插入图片描述
关联规则挖掘
在这里插入图片描述
关联规则-Apriori算法

Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。

Apriori算法两个步骤
– 通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低 于户设定的阈值的项集;
– 利用频繁项集构造出满足用户最小置信度的规则。
在这里插入图片描述
在这里插入图片描述
聚类分析
聚类分析(Cluster Analysis)是一个将数据集中的所有数据, 按照相似性划分为多个类别(Cluster, 簇)的过程;
在这里插入图片描述
常用的聚类分析方法:
❑ 划分法(Partitioning Methods):以距离作为数据集 中不同数据间的相似性度量,将数据集划分成多个簇。
◼ 属于这样的聚类方法有:k-means、k-medoids等。
❑ 层次法(Hierarchical Methods):对给定的数据集进 行层次分解,形成一个树形的聚类结果。
◼ 属于这样的聚类方法有:自顶向下法、自底向上法。
 密度聚类

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习在网络空间安全领域的应用非常广泛,以下是一些常见的应用场景: 1. 威胁检测和入侵检测:通过机器学习算法,可以对网络流量数据进行分析和建模,以检测异常或恶意行为。例如,可以使用监督学习算法来训练模型,对网络流量进行分类,判断是否存在入侵行为。 2. 恶意软件检测:机器学习可以用于识别和分类各种类型的恶意软件,包括病毒、木马、蠕虫等。通过对恶意软件样本进行特征提取和训练,可以构建模型用于自动化的恶意软件检测和防御。 3. 用户行为分析:通过机器学习算法,可以对用户在网络中的行为进行分析和建模,以便检测异常活动或未授权访问。例如,可以使用聚类算法来识别用户行为模式,从而发现潜在的安全威胁。 4. 欺诈检测:机器学习可以用于识别网络上的欺诈行为,如网络钓鱼、虚假广告等。通过对欺诈行为的模式进行学习和建模,可以提高欺诈检测的准确性和效率。 5. 异常检测:机器学习可以用于检测网络中的异常情况,如异常流量、异常登录等。通过对正常行为模式进行建模,可以识别出与之不符的异常行为,从而及时发现和应对潜在的安全威胁。 需要注意的是,在网络空间安全领域使用机器学习算法也存在一些挑战,如数据集的不平衡、对抗样本攻击等。因此,需要综合考虑算法选择、特征工程、模型评估等因素,以提高机器学习在网络安全中的应用效果和鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值