机器学习入门第1天

第一章--《绪论》

重点1:什么是机器学习

重点2:机器学习中的一些基本术语

机器学习的定义:

通常来说,计算机科学是研究“算法”的学问,而机器学习是研究关于“学习算法”的一门学问。那么什么又是学习算法呢?学习算法是指计算机从数据中所产生“模型”的算法。当有了学习算法之后,我们将经验数据提供给它,它就能基于这些数据产生模型,在面对新的数据时,该模型就能提供相应的判断,这就是机器学习。

机器学习中的基本术语:

①数据集、示例、样本、属性值

比如:我们收集到在校学生的一组基本信息数据(姓名=小王,性别=男,年龄=22),(姓名=小红,性别=女,年龄=21)...其中,“=”是取值的意思。我们将上述这一组数据的集合就称为“数据集”(data set),里面的每一条记录都是关于一个事件或者对象(人)进行的描述,称为一个 “示例”(instance)或者”样本“(sample),反映事件或人物在某方面表现或性质的事项,如“姓名”、“性别”、“年龄”称为”属性“(attribute)或”特征“(feature),属性的取值,如“小王”、“男”、“22”称为”属性值“(attribute value)或“特征值”(feature value)。

②维数

令D={X1,X2,X3,...,Xm}表示一个包含m个示例的数据集,每个示例都由d个属性描述,则每个示例Xi都是d维样本空间(属性张成的空间)中的一个向量,Xij是在第j个属性上的取值,d称为样本Xi的”维数“。

③训练集

通常我们将从数据中获取模型的过程称为”学习“(learning)或者”训练“(training),在训练过程中使用的数据称为”训练数据“(training data),其中的每个样本称为”训练样本“(training sample),由训练样本组成的集合称为”训练集“(training set)

④分类&回归

如果预测结果是离散值,比如二分,我们将这类学习任务称为”分类“(classification);

如果预测结果是连续值,比如0.1,0.2,0.4...,我们将这类学习任务称为”回归“(regression)。

⑤测试样本

当学得模型后,我们将其用于预测的过程称为”测试”(testing),被预测的样本就是”测试样本“(testing sample)

⑥聚类

将训练集中的数据分成若干组,每组形成一个”簇“(cluster),这样的过程称为“聚类”(clustering),这些自动形成的簇可能对应一些潜在的概念划分。

⑦监督学习安&无监督学习

根据训练数据是否拥有标记信息分为监督学习和无监督学习,分类与回归是监督学习的代表,聚类是无监督学习的代表。

----参考书籍《机器学习--周志华》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DXM0521

你的支持是我最大的幸运

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值