机器学习
初识机器学习——什么是机器学习?
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
数据集:这组记录的集合
样本:其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述
特征:反映对象在某方面的性质的事项,例如“色泽”“根蒂”“敲声”
特征值:属性上的取值,例如“青绿”“乌黑”
样本空间:由特征张成的空间,例如我们把“色泽”“根蒂”“敲声”作为三
个坐标轴,每个西瓜都可在这个空间中找到自己的坐标位置。
特征向量:空间中的每个点都对应一个坐标向量
模型:输入数据,即可得到预测结果,如何选择最好最高效的模型就是机器学习的目标
数据集(相对于深度学习来说数据量要求较少)分为训练集和测试集
标记信息:例如(青绿,蜷缩,浊响,好瓜),其中的好瓜为标记,拥有标记信息的示例被称为样例(注意:分类和回归问题需要标记数据,而聚类一般不需要)
分类:预测的结果是离散值,比如“好瓜”,“坏瓜”
回归:预测的结果是连续值,比如西瓜的成熟度为0.95,0.37
聚类:用相关算法自动将训练集中的西瓜分为若干组,每一组叫做一簇,存在一些潜在的划分需要自己去寻找
机器学习分为两大类:监督学习,无监督学习
监督学习:主要用于分类与回归,在机器学习过程提供对错指示,从给定的训练集中学习一个目标函数,可以用这个函数预测结果,监督学习要求包括输入与输出
非监督学习:利用K方式建立中心,通过循环和递减运算减小误差得到分类的目的。