机器学习知识点_机器学习的任务-CSDN博客

本文链接：https://blog.csdn.net/qq_27339501/article/details/105449894

1.机器学习的任务：回归、分类、聚类。（所要解决的问题不同）
（1）回归任务是通过若干带有标准的样本数据构造出一个预测模型R(X)，使得R(X)的预测输出尽能符合真实值，并称R(X)为回归模型。（用于构造模型的样本称为训练样本，用于测试模型效果的样本称为测试样本）
（2）分类任务的目标是通过训练样本构建合适的分类器，完成对目标的分类。
（3）聚类任务是对样本数据实现物以类聚的效果。
（4）区别：聚类任务的先验信息为示例，即不带标注的样本。而回归和分类任务的先验信息均为带标注的样本。

2.机器学习依据先验信息的不同形式：监督学习、无监督学习、强化学习。
（1）监督学习：利用一组带标注样本调整模型参数，提升模型性能的学习方式。其基本思想是通过标注值告诉模型在给定输入的情况下应该输出什么值，由此获得尽可能接近真实映射方式的优化模型。
（2）无监督学习：通过比较样本之间的某种联系实现对样本的数据分析，其最大特点是学习算法的输入是无标记样本。
（3）强化学习：根据反馈信息来调整机器行为以实现自动决策的一种机器学习方式

3.泛化误差：对于某个给定的机器学习任务，假设与该任务相关的所有样本构成的样本集合为D，则机器学习模型在样本集合D上的整体误差称为该模型关于该学习任务的泛化误差。

4.过拟合：同时拟合训练样本的共性特征和个性特征；
欠拟合：未能充分拟合训练样本共性特征造成模型泛化误差较大而导致模型泛化能力较弱。

5.决策树模型：决策树模型是一个树形结构，包含了一个根结点、若干内部结点和若干叶子结点。该模型主要用于表示某种级联判断或决策，其中每个结点对应一次判断或决策，叶子结点表示判断或决策的最终结果。
统计学习：基于概率统计理论。

6.样本的特征提取：对样本的表征数据进行适当处理获得机器学习和实际问题求解所需要的特定信息。
步骤：（1）构造出一组用于对样本数据进行描述的特征，即特征构造；
（2）对构造好的这组特征进行筛选或变换，使得最终的特征集合具有尽可能少的特征数目且包含尽可能多的所需样本信息。
传统特征：计算机视觉和视频图像处理领域常用特征有LBP特征、Canny特征、颜色直方图、Haar特征、SIFT特征等。