什么是机器学习?
1.机器学习,致力于研究如何通过计算的手段(GPU和CPU),利用经验(数据)来改善自身的性能的过程
2.机器学习,专门研究计算机如何能够模拟或实现人类的学习行为,以获取新的知识或技能
从而重新组织这些新的技术或技能提高自身的性能或能力。
3.数据Data+机器学习算法==>Model(预测的能力)
4.当有新的数据需要预测,只需要提供给Model模型即可得到结果信息。
5.对于数值计算、确定性的问题不是机器学习问题。
6.基于规则的学习和基于模型的学习
基于规则的学习---利用人从业务中发现规律--->规则--->其余数据只需要
做一个判断就可以得出当前的邮件是否为垃圾邮件
基于模型的学习---利用数据集(训练集和测试集)--->
训练集+分类算法---训练模型Model
有新的邮件数据+Model=Predict-->是垃圾邮件or不是垃圾邮件
机器学习的基本概念:
训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
数据集---城市数据集
行---样本数据
列---特征或属性数据(除去最后一列的标签列)
属性空间:属性张成的空间
特征向量:每一个样本中的数据组成的向量
训练集:用于模型训练的数据集,X+Y
测试集:用于校验模型的优劣程度,X+Y
训练过程:(学习过程)使用训练数据集+机器学习算法==>模型
模型:将测试集中除去Y部分灌入模型中进行预测Y1
误差:Y-Y1
测试误差:模型在测试集上的误差
训练误差:模型在训练集上的误差
泛化误差:对新数据的适应能力
准确率:预测争取的个数/全部个数个数
错误率:预测错误的个数/全部样本个数
以西瓜数据集为例:
数据集名称---西瓜数据集
样本个数、属性或特征个数
特征空间
特征向量
训练集、测试集
模型---判断西瓜是好西瓜还是坏西瓜(二分类问题)
当有新的数据来的时候,通过模型做预测
误差:预测值和真实值有误差
准确率和错误率
引入:
分类和回归差别:
输出变量是否是连续值--是-->回归 不是--->分类
监督学习(有类别标签的学习行为):
将分类和回归统称为监督学习
无监督学习(没有类别标签的数据集学习方式)
半监督学习(有的数据集有标签有的数据集没有标签)
机器学习day01
最新推荐文章于 2024-09-15 10:16:11 发布