第一章--《绪论》
重点1:什么是机器学习
重点2:机器学习中的一些基本术语
机器学习的定义:
通常来说,计算机科学是研究“算法”的学问,而机器学习是研究关于“学习算法”的一门学问。那么什么又是学习算法呢?学习算法是指计算机从数据中所产生“模型”的算法。当有了学习算法之后,我们将经验数据提供给它,它就能基于这些数据产生模型,在面对新的数据时,该模型就能提供相应的判断,这就是机器学习。
机器学习中的基本术语:
①数据集、示例、样本、属性值
比如:我们收集到在校学生的一组基本信息数据(姓名=小王,性别=男,年龄=22),(姓名=小红,性别=女,年龄=21)...其中,“=”是取值的意思。我们将上述这一组数据的集合就称为“数据集”(data set),里面的每一条记录都是关于一个事件或者对象(人)进行的描述,称为一个 “示例”(instance)或者”样本“(sample),反映事件或人物在某方面表现或性质的事项,如“姓名”、“性别”、“年龄”称为”属性“(attribute)或”特征“(feature),属性的取值,如“小王”、“男”、“22”称为”属性值“(attribute value)或“特征值”(feature value)。
②维数
令D={X1,X2,X3,...,Xm}表示一个包含m个示例的数据集,每个示例都由d个属性描述,则每个示例Xi都是d维样本空间(属性张成的空间)中的一个向量,Xij是在第j个属性上的取值,d称为样本Xi的”维数“。
③训练集
通常我们将从数据中获取模型的过程称为”学习“(learning)或者”训练“(training),在训练过程中使用的数据称为”训练数据“(training data),其中的每个样本称为”训练样本“(training sample),由训练样本组成的集合称为”训练集“(training set)
④分类&回归
如果预测结果是离散值,比如二分,我们将这类学习任务称为”分类“(classification);
如果预测结果是连续值,比如0.1,0.2,0.4...,我们将这类学习任务称为”回归“(regression)。
⑤测试样本
当学得模型后,我们将其用于预测的过程称为”测试”(testing),被预测的样本就是”测试样本“(testing sample)
⑥聚类
将训练集中的数据分成若干组,每组形成一个”簇“(cluster),这样的过程称为“聚类”(clustering),这些自动形成的簇可能对应一些潜在的概念划分。
⑦监督学习安&无监督学习
根据训练数据是否拥有标记信息分为监督学习和无监督学习,分类与回归是监督学习的代表,聚类是无监督学习的代表。
----参考书籍《机器学习--周志华》