人工智能笔记分享

介绍
我整理了一些比较关键的、考试可能会考的点,只是为了应付考试,都是些概念,不涉及具体算法实现。希望对大家有所帮助!

人工智能

图灵测试

什么是图灵测试?

人和机器人对话, 且人不知道对方为计算机

三个老爷爷

阿兰·图灵、维纳、约翰·麦卡锡

分类

判断一个实物的类型,这样的过程在人工智能 领域里被成为分类

分类:根据所给数据的不同特点, 判断它属于哪个类别

分类与聚类的区别(重点)

  • 省流:分类有监督,要预定义数据,分训练集测试集 聚类则不用,丢个数据让机器自己训练
  • 应用场景:分类需提前指明分哪几类?否则只说分类特征的话,只能是聚类咯~
分类 (Classification)
  1. 定义: 分类是一种监督学习方法,它将输入数据分配到预定义的类别中。
  2. 目标: 通过学习一个模型来预测新数据点所属的类别。
  3. 数据类型: 需要带有标签的数据集,即每个输入数据都有一个已知的输出类别。
  4. 算法: 常见的分类算法包括决策树、随机森林、支持向量机(SVM)、k近邻算法(k-NN)、朴素贝叶斯和神经网络。
  5. 应用: 分类问题的典型应用包括垃圾邮件检测(邮件是垃圾邮件或正常邮件)、图像识别(图像中是猫还是狗)、疾病诊断(病人是否患有某种疾病)等。
聚类 (Clustering)
  1. 定义: 聚类是一种无监督学习方法,它将数据点分组为多个簇,使得同一个簇中的数据点彼此之间的相似度最大,不同簇的数据点之间的相似度最小。
  2. 目标: 发现数据中的自然分组或结构,而不是预测新数据点所属的类别。
  3. 数据类型: 不需要带有标签的数据集,即数据点没有预定义的输出类别。
  4. 算法: 常见的聚类算法包括k均值(k-means)、层次聚类(hierarchical clustering)、DBSCAN(基于密度的聚类方法)和均值漂移(mean-shift)。
  5. 应用: 聚类问题的典型应用包括客户细分(根据购买行为将客户分组)、图像分割(将图像像素分为不同区域)、文档分类(根据内容将文档分组)等。

特征提取 + 分类器(重点)

特征提取

如:花瓣长度 花瓣宽度 花瓣颜色 植株高度 花瓣面积 …

1、对同样的事物,我们可以提取出各种各样的特征
2、不同的特征对于分类器的准确分类会有很大的影响

表示方式:向量 (x1,x2,x3…)(长度,宽度,面积…)

  • 提取特征是关键!
为什么要进行特征提取?(重点)

简化数据:原始数据往往包含大量的冗余信息和噪音。通过特征提取,可以简化数据,只保留对模型有用的信息,提高计算效率。

提高模型性能:提取出具有代表性的特征,可以帮助模型更准确地识别数据中的模式,从而提高模型的预测性能。

降维:对于高维数据,特征提取可以减少维度,降低计算复杂度,并减轻“维度灾难”问题。

增强解释性:提取出具有物理意义或业务意义的特征,有助于理解模型的决策过程,增强结果的可解释性。

减少过拟合:通过提取关键特征并去除噪音数据,可以减少模型的复杂度,降低过拟合的风险。

提高训练效率:更小且更有代表性的特征集可以显著减少模型训练时间和资源消耗。

分类器

可线性,也可非线性,线性划分平面,也可以是超平面

可以用大量数据来训练分类器

训练集、测试集大小(重点)

数据充足可 1:1

数据不充足可 6:4, 7:3

K则交叉验证(重点)

K最小值为2,最大值为样本总数

K 小了:计算成本低,性能不稳定,影响模型的泛化能力
K 大了:计算成本高,性能稳定,但可能带来过于乐观的估计,每次验证集的大小较小,模型可能无法充分地从验证集中学习到数据的特性,导致评估的偏差较大

k 个 accuracy 如何处理?

  • 通常通过计算 平均准确率标准差 来评估模型的 总体表现 和 稳定性

过拟合、欠拟合

过拟合:训练集过好,而测试集糟糕

欠拟合:训练集就不行了,根本没好好训练!

how(了解就行):增加样本量、k则交叉验证、数据预处理、正则化、特征选择 …

分类准确率

分类准确率= 分类正确的样本数 / 测试样本的总数

softmax

softmax 是 归一化指数函数

用于多分类,可以归一化,将输出值转为概率

卷积神经网络

向量卷积计算

每次滑一步,分别进行向量点乘,最终结果还是一个向量

矩阵、张量卷积计算

和向量同理,反正我会算!

池化层

池化层通过减少特征图的空间维度,减少了后续卷积层的计算量和参数量,从而提高了网络的计算效率和训练速度,可防止过拟合

循环神经网络

RNN

时间序列,不适合处理长序列(会遗忘)

GRU

两个门,更新门和重置门,设定上一个时刻和当前时刻的权重比

LSTM

三个门,比GRU复杂,分量之前每关系,相对独立,可自由设置

遗忘门能决定需要保留先前步长中哪些相关信息

输入门决定在当前输入中哪些重要信息需要被添加

输出门决定了下一个隐藏状态。

光流骨架

光流(重点)

光流是指在一系列连续的图像帧之间,物体像素位置的运动变化
基于光流的方法主要关注的是像素级别的运动信息,通常用于计算图像中的运动矢量场

骨架

基于骨架的方法主要关注的是对象(通常是人类)的关节和身体部分的位置信息
通过检测和追踪人体的关键点(如头、肩、肘、膝等),可以重建出人体的骨架结构

  • 目标检测 先检测到人
  • 骨架提取 拿到这个人的骨架
  • 特征提取 对骨架进行特征提取并分析
  • 动作识别 根据特征来识别判断出是什么动作

光流骨架区别

  1. 运动信息的表示方式
    • 光流方法基于像素级别的运动矢量,表示的是连续帧之间的运动变化。
    • 骨架方法基于关键点和关节位置,表示的是人体的姿态和骨架结构。
  2. 应用场景
    • 光流方法适用于需要细粒度运动分析的场景,如目标跟踪、视频稳定等。
    • 骨架方法适用于人体动作识别、姿态估计和运动分析等。
  3. 计算复杂度和鲁棒性
    • 光流方法计算复杂度较高,容易受到光照变化和噪声的影响。
    • 骨架方法计算相对简单,更鲁棒于光照和背景变化。

关联规则挖掘

两个兴趣度度量

支持度 整体概率,比如某个项集在事务集中出现的概率

置信度 条件概率,比如含A的事务集中,出现AC的概率

  • 提升度 在B单独发生中,是 A 引起的,即 A → \rightarrow B 的概率

衍生概念

频繁k项集 大于人为设定的最小支持度

候选k项集 用于生成频繁k项集的项集

AP算法

不断往上推,然后看置信度和提升度满不满足要求

聚类算法

k-means聚类(重点)

分成k个簇,先选取k个样本点,每加入一个点时先分类,再重新计算簇中心点,循环直到所有点分完为止

k近邻(KNN)是选周围k个样本点,然后来进行归类,是监督算法,要进行区分!

层次聚类(重点)

根据距离最小的两个点来聚类,不断往上叠层,每次都使样本簇数-1,最终像一个树结构,有层次感

优点:

1、得到层次化表达,信息丰富
2、有利于把数据集的聚类结构视觉化

缺点:

1、对噪声和离群点很敏感,需要有力的预处理过程
2、计算量很大

密度聚类-DBSCAN(重点)

  • 具有噪声的基于密度的空间聚类
  • 把分布相对密集、距离较近的点聚到一起
  • 不是所有的点都是类的一部分
  • DBSCAN定义了噪声点,在具有噪声的情况下具有较大的作用

优点:

1、不需要指明类的数量
2、能灵活地找到并分离各种形状和大小的类
3、能有效处理数据集中的噪声和离群点

缺点:

1、从两类可达的边界点,被分配给了另一个类(因为这个类先发现这个点),不能保证回传正确的分类情况
2、较难找到不同密度的类

层次聚类和密度聚类区别(重点)

层次聚类密度聚类
数据完整数据不完整
更有层次化,利于可视化更有集中性,适用于有噪声情况
对噪声和离群点很敏感,受极端情况影响大可舍弃极端情况,只集中对密度大的部分进行聚类
  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值