机器学习导论（三）

最新推荐文章于 2024-09-11 10:21:31 发布

han_stars

最新推荐文章于 2024-09-11 10:21:31 发布

阅读量337

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/han_stars/article/details/102471145

版权

机器学习分类

在这里插入图片描述

监督学习

监督（supervised）是指训练数据集中的每个样本均有一个已知的输出项（类标label）
输出变量为连续变量的预测问题称为回归问题，回归算法有
简单线性回归，多元线性回归，Lasson回归，Ridge回归，ElastictNet
输出变量为有限个离散变量的预测问题称为分类问题，分类算法有
决策树，KNN，SVM，Perception&NeuNetwork，Bayes，LogisticRegression

无监督学习

人们给机器一大堆没有分类标记的数据，让机器可以对数据分类、检测异常等
1、聚类（KMeans）
2、降维（PCA，LDA）
在这里插入图片描述

半监督学习

一部分样本有标签，一部分样本无标签，处理方法：聚类假设
聚类假设：将有标记的样本和无标记的样本混合在一起，通过特征之间的相似性将样本分为若干组，使得组内的相似性较大，组间的相异性较大，将样本点都进行分组，组内根据少数服从多数的原则对没有标记的样本添加标记，至此，所有未标记的数据都可以分配标记。
主动学习
纯半监督学习/直推学习

强化学习

是机器学习的一个重要分支，主要用来解决连续决策问题
在这里插入图片描述

迁移学习

小数据问题
个性化问题

机器学习三要素

模型+策略+算法

模型

模型通常分为决策函数（非概率模型）或条件概率分布（概率模型）

策略

评估模型的好坏，使用损失函数（误差函数、目标函数）度量

算法

机器学习的算法就是求解最优化问题的算法

如何设计机器学习系统

在这里插入图片描述
首先明确：
1、该问题是否为机器学习问题
2、该问题是机器学习问题的哪方面问题
当拿到数据后从下面两个角度思考：
1、数据角度：根据具备的数据看能够做监督学习or无监督学习or半监督学习
2、业务角度：根据业务部门指定的业务方向，整理数据，建模
特征工程：
1、对特征处理
2、对数据处理
数据+选择的算法==》模型
通过测试集测试模型，给定最终模型
有新数据，通过模型给出测试结果