周志华《机器学习初步》学习笔记

最新推荐文章于 2024-04-10 10:26:11 发布

河马君…..

最新推荐文章于 2024-04-10 10:26:11 发布

阅读量163

点赞数

文章标签：学习人工智能

本文链接：https://blog.csdn.net/m0_72326819/article/details/128808617

版权

机器学习是人工智能的核心，目前的机器学习主要分为两大类：第一类是传统机器学习的研究，该类研究主要是研究学习机制，注重探索模拟人的学习机制；第二类是大数据环境下机器学习的研究，该类研究主要是研究如何有效利用信息，注重从巨量数据中获取隐藏的、有效的、可理解的知识。 [2]
决策树：一个预测模型；监督学习：它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。剪枝是决策树停止分支的方法之一，剪枝有分预先剪枝和后剪枝两种。应付过拟合。

测试属性的标准：信息增益（越大分的越干净），增益率（先找增益高的，再找增益率高的），基尼指数（越小纯度越高）

3. 随机森林

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。

输出的类别是由个别树输出的类别的众数而定

待选特征的选取：三个臭皮匠顶一个诸葛亮

决策树的的待选特征是选择其中最优的一个待选特征，随机森林是从待选特征中随机选取几个，每颗树都不同，最终由投票规则确定结果

4. 人工神经网络

神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。

简单单元神经网络M-P模型

多层前馈神经网络模型

在监督学习中，将训练样本的数据加到网络输入端，同时将相应的期望输出与网络输出相比较，得到误差信号，以此控制权值连接强度的调整（B-P算法），经多次训练后收敛到一个确定的权值。当样本情况发生变化时，经学习可以修改权值以适应新的环境。

5. 贝叶斯分类器（为了将对象分类）

贝叶斯学习是利用参数的先验分布，由样本信息求来的后验分布，直接求出总体分布。贝叶斯学习理论使用概率去表示所有形式的不确定性，通过概率规则来实现学习和推理过程。

了解先验概率与后验概率是什么

贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。其分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类.

6.集成学习

分类器集成，其实就是集成学习，通过构建并结合多个学习器来完成学习任务。一般结构是：先产生一组“个体学习器”，再用某种策略将它们结合起来。

结合策略主要有平均法、投票法和学习法等

产生一组“个体学习器”，再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生，例如C4.5决策算法、BP神经网络算法等，此时集成中只包含同种类型的个体学习器，例如“决策树集成”中全是决策树，“神经网络集成”中全是神经网络，这样的集成是“同质”的。同质集成中的个体学习器亦称为“基学习器”。相应的学习算法称为“基学习算法”。集成也可包含不同类型的个体学习器，例如，同时包含决策树和神经网络，这样的集成称为“异质”的。异质集成中的个体学习器由不同的学习算法生成，这时就不再有基学习算法，常称为“组件学习器”或直接称为个体学习器。