机器学习内容速了解

心灵排骨汤

已于 2023-11-23 10:35:32 修改

阅读量540

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能神经网络回归分类

于 2022-01-14 11:40:35 首次发布

本文链接：https://blog.csdn.net/qq_45783383/article/details/122054448

版权

本文介绍了机器学习的基础概念，包括属性空间、监督与非监督学习。深入探讨了典型机器学习过程，涵盖线性模型、决策树、神经网络、SVM和支持向量机以及贝叶斯分类器。同时，讲解了模型评估方法，如测试集获取、性能度量和比较检验，以及聚类算法如k-means、DBSCAN和层次聚类。

摘要由CSDN通过智能技术生成

提示：

机器学习个人理解 ：首先机器学习要获取一定的数据集，这些数据集要包含描述某一对象的特殊特征，同时带有想要预测的结果，将一部分数据用来给机器学习，再用剩下的数据做测试。通过不断优化学习算法使机器的预测结果越来越符合我们想要的结果。

基本术语

数据集(data set)	其中每条记录是关于一个事件或对象的描述
属性(attribute)或特征(feature)	反映事件或对象在某方面的表现或性质的事项，例如人的身高，体重等可以作为此人的属性或特征。
属性值(attribute value)	属性上的取值，如一个人体重为55kg

属性空间，样本空间，输入空间：
属性张成的空间，例如可以用（码龄，发量，发际线）来描述一个程序员，将这三个属性作为三个坐标轴，那么便形成了一个关于程序员的三维空间，三维空间中每个程序员都可以找到自己的坐标位置，每个坐标位置对应着一个坐标向量，那么这可以作为一个程序员的特征向量。

集合
训练集(training set)	用来训练的数据集合
测试集(testing set)	用来测试的数据集合

(无)监督学习((un)supervised learning) ：
监督学习-给予已标注图像学习后，机器再标注。
无监督学习-无标注图像
半监督学习-给予部分图像标注学习
图像标注 (给图像注释)

泛化(generalization)：小部分训练后大范围试用
归纳偏好( inductive bias)：机器学习算法在学习过程中对某种类型假设的偏好

语言、图像->feature->向量

在这里插入图片描述

误差类型
泛化误差	在“未来”样本上的误差
经验误差	在训练集上的误差，亦称“训练误差”

泛化误差越小越好；
但是经验误差并不是越小越好，经验误差过小会导致过拟合。


过拟合	往往能较好地学习训练集数据的性质，而在测试集上的性能较差，表现为输出结果的高方差
欠拟合	在训练集和测试集上的性能都较差，主要表现为输出结果的高偏差
以下为选择模型三指标