《人工智能Ⅰ》课程复习资料(上)

本文是对我的大学课程——《人工智能Ⅰ》的课程知识整理,分上下两个部分,本文为上半部分,下半部分详见《人工智能Ⅰ》课程复习资料(下)

内容为速记精简版,若想进一步了解学习请参考更多资料。

目录

知识表示

遗传算法及其应用

蚁群算法

机器学习之分类

机器学习-决策树


知识表示

自然界四大奥秘: 物质的本质 、宇宙的起源 、生命的本质、智能的发生

智能是知识与智力的总和

知识特性:相对正确性、不确定性、可表示性与可利用性

“x<5”  :Less(x, 5)

如果刘华跑得最快 , 那么他取得冠军 。

RUNS (Liuhua ,faster) → WINS (Liuhua  ,champion)

( ∃x) INROOM(x,r1)1号房间有个物体

产生式系统:规则库·、控制系统、综合数据库

框架表示法:结构性、继承性、自然性

表示方法一共有:一阶谓词逻辑表示法、产生式表示法、框架表示法


遗传算法及其应用

遗传算子:选择、交叉、变异

二进制编码:相邻整数的二进制编码可能具有较大的Hamming距离,降低了遗传算子的搜索效率

gray编码:首位不变,后面位置由这个位置和上一个位置异或运算

实数编码、多参数级联编码

群体规模太小,遗传算法的优化性能不太好,易陷入局部最优解。

群体规模太大,计算复杂。

模式定理表明:若群体规模为M,则遗传操作可从这M 个个体中生成和检测M3个模式,并在此基础上能够不断优化,直到找到最优解。

一般种群规模设置为 40- 100

适应度函数

过早收敛解决法:缩小个体的适应度,以降低超级个体的竞争力。

停滞现象办法:改变原始适应值的比例关系,以提高个体之间的竞争力。

遗传算法搜索求解能力与四个因素有关:群 )遗传算法搜索求解能力与四个因素有关:群体规模、选择算子、交叉率和变异率


蚁群算法

信息素更新机制:路径越短,信息素的浓度增长得越快。

协同工作机制:蚂蚁个体之间通过信息素进行信息传递。

密度聚类和K均值聚类是两种不同的聚类算法。密度聚类基于样本点的密度来划分簇,能够处理不规则形状的簇,无需预先指定簇的个数,对噪声点有较好鲁棒性。相比之下,K均值聚类是一种基于距离的算法,要求预先设定簇的个数,对簇形状较为敏感,适用于凸形状的簇。密度聚类适用于复杂数据集和噪声较多的情况,而K均值聚类在处理相对简单数据集时效果较好。

Kmeans算法的质心个数可以随机确定


机器学习之分类

监督学习(Supervised learning)

• 使用有标签数据进行学习

• 典型场景:分类、回归

非监督学习(Unsupervised learning)

• 使用无标签数据进行学习

• 典型场景:聚类

半监督学习(Semi-supervised learning)

• 使用数据的一部分是有标签的,另一部分没有标签

• 典型场景:海量数据分类、从图库中识别出“日蚀”图片

强化学习

• 使用无标签但有反馈的数据进行学习

• 典型场景:策略推理

✓ 过采样(Over-Sampling):随机复制少数类。

✓ 欠采样(Under-Sampling):通过随机地消除占多数的类样本


机器学习-决策树

KNN

一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别

近似误差:对现有训练集的训练误差,值小会过拟合。

估计误差:对测试集的测试误差,值小说明对未知数据的预测能力好。

交叉验证法:将数据集划分为 N个大小相似的互斥子集,并且尽量保证每个子集数据分布的一致性。这样,就可以获取 N组训练 - 测试集,从而进行 N 次训练和测试。

决策树

构造树的依据--- 信息熵&信息增益

剪枝,即减少树的高度,避免过拟合。

 1)预剪枝干:设定一个树高度,当构建的树达到高度时,停止。

(2)后剪枝:任由决策树构建完成,然后从底部开始,判断哪些枝干应该剪掉。

预剪枝更块,后剪枝更精确。

ID3:每次选择信息增益最大的特征

C4.5:ID3的改进,用信息增益率划分属性

CART:基尼指数,省略了对数计算,运算量比较小

集成学习

通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器,各自独立地学习和作出预测,这些预测最后结合成单预测。

Boosting 和 Bagging的比较

训练子集的选择

◼ Boosting:训练子集的选择不是独立的 , 训练子集的选择都与前一个基学习器的预测结果有关

◼ Bagging:训练子集的选择是独立的 ,采用自助随机采样法从原始训练样本集中有放回地选取

基学习器之间的依赖性

◼ Boosting:各个基学习器之间存在依赖性,只能串行依次训练基学习器 。

◼ Bagging: 各个基学习器之间不存在依赖性,可并行训练基学习器

基学习器的组合方式

◼ Boosting:采用线性加权方式进行组合 , 每个基学习器都有相应的权重 , 对于错误率小的基学习器会有更大的权重 。

◼ Bagging:对于分类问题 ,通常使用简单投票法;对于回归问题通常使用简单平均法 。

随机森林分类效果与两个因素有关:

1.森林中任意两棵树的相关性:相关性越大,错误率越大;

2.森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。

投票机制

◆简单投票机制

假设每个分类器都是平等的。

贝叶斯投票机制

基于每个基本分类器在过去的分类表现设定一个权值


关注我,持续分享有趣有用的知识!

  • 28
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

往为序章

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值