机器学习内容速了解

本文介绍了机器学习的基础概念,包括属性空间、监督与非监督学习。深入探讨了典型机器学习过程,涵盖线性模型、决策树、神经网络、SVM和支持向量机以及贝叶斯分类器。同时,讲解了模型评估方法,如测试集获取、性能度量和比较检验,以及聚类算法如k-means、DBSCAN和层次聚类。
摘要由CSDN通过智能技术生成

提示:

机器学习个人理解 :首先机器学习要获取一定的数据集,这些数据集要包含描述某一对象的特殊特征,同时带有想要预测的结果,将一部分数据用来给机器学习,再用剩下的数据做测试。通过不断优化学习算法使机器的预测结果越来越符合我们想要的结果。


基本术语

数据集(data set) 其中每条记录是关于一个事件或对象的描述
属性(attribute)或特征(feature) 反映事件或对象在某方面的表现或性质的事项,例如人的身高,体重等可以作为此人的属性或特征。
属性值(attribute value) 属性上的取值,如一个人体重为55kg

属性空间,样本空间,输入空间:
 属性张成的空间,例如可以用(码龄,发量,发际线)来描述一个程序员,将这三个属性作为三个坐标轴,那么便形成了一个关于程序员的三维空间,三维空间中每个程序员都可以找到自己的坐标位置,每个坐标位置对应着一个坐标向量,那么这可以作为一个程序员的特征向量。

集合
训练集(training set) 用来训练的数据集合
测试集(testing set) 用来测试的数据集合
概念
分类(classification) 预测的值涉及离散,如好瓜,坏瓜。二分类,多分类
回归(regression) 预测的值涉及连续值,例如西瓜甜度,身高
聚类(clustering) 同一类型聚集在一起

(无)监督学习((un)supervised learning) :
监督学习-给予已标注图像学习后,机器再标注。
无监督学习-无标注图像
半监督学习-给予部分图像标注学习
图像标注 (给图像注释)

泛化(generalization):小部分训练后大范围试用
归纳偏好( inductive bias):机器学习算法在学习过程中对某种类型假设的偏好

典型的机器学习过程

语言、图像->feature->向量

在这里插入图片描述

模型评估与选择

误差类型
泛化误差 在“未来”样本上的误差
经验误差 在训练集上的误差,亦称“训练误差”

泛化误差越小越好;
但是经验误差并不是越小越好,经验误差过小会导致过拟合

过拟合 往往能较好地学习训练集数据的性质,而在测试集上的性能较差,表现为输出结果的高方差
欠拟合 在训练集和测试集上的性能都较差,主要表现为输出结果的高偏差
以下为选择模型三指标

评估方法(测试集获取)

测试集与训练集要“互斥”
留出法、交叉验证、自助法

1.留出法
保持数据分布一致性(如分层取样)
多次重复划分(如100次随机划分)
测试集大小适中
在这里插入图片描述
2.k-折交叉验证
将数据集等分为k份
分别将每一份作为一个测试集分别测试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心灵排骨汤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值