机器学习——周志华老师西瓜书学习总结(1)
前言
本篇文章向大家简单介绍古纳于机器学习的一些基础知识,入门的小白同学可以安心食用
一、机器学习是什么?
简单易懂的话说,就是机器学习如何向我们人类一样,利用自己的经验进行判断和决策。
举个栗子:
我们日常可以根据和风、晚霞等天气特征,给出第二天是个好天的判断;
在购买西瓜时,我们会根据根蒂的新鲜程度、敲击西瓜发出的声音这些特征,判断西瓜的成熟……
总结为以下机器学习的专业定义:
即研究如何通过计算的手段,利用经验来改善系统自身的性能。
那计算机的经验如何描述呢?
计算机常以“数据“来表示经验,因此,机器学习的主要研究内容是,关于利用经验数据搭建模型的算法。
有个这个算法,就可以根据经验数据,搭建出相应的模型,并利用建立的模型,对新产生的数据进行经验判断。
二、机器学习的基本术语和分类
基本术语
- 数据集
- 特征向量
- 标记信息
数据集:机器学习的前提是收集数据,如收集了一批西瓜的数据,其中记录了每个西瓜的特征(色泽=A,根蒂=B,……)
以上的数据集合称为数据集,其中用于训练产生模型的数据称为”数据集“;
特征向量:数据集里面的每一组数据,记录的都是关于西瓜的每个相关特征,一个特征在特征空间里面可以表示为一个特征向量。
标记信息:对于每个特征,我们有相应的结果数据,如”好瓜“,这就是对示例的标记。
分类
根据训练数据中是否有标记信息,可以将机器学习分为两大类——“监督学习”(分类和回归)和“无监督学习”(聚类)。
假设空间
机器学习是从特殊的样例,泛化到一般性规律的过程。
对数据特征做出相应的假设,假设的集合称为假设空间;
如针对好瓜,我们的假设为:好瓜=(色泽=?)&(根蒂=?)&(敲声=?),根据三种特征的取值,有多个假设。
那么如何确定最终的假设呢
通过搜索每一种假设,删除与样例不一致的假设,最终将会获得与训练集一致的假设
但有时,我们获得的假设是多个,应该选择哪一个呢?
此时,需要提到归纳偏好这个概念,
归纳偏好,这个“偏好”可以是我们在选择假设时,对某个特征更为看重,比如“根蒂”,那就可以设为:好瓜=(色泽=)&(根蒂=?)&(敲声=)(*号代指取任何值皆可)
需要注意的是,归纳偏好,需要针对现实中的具体要解决的问题,没有绝对好的假设。
该处使用的url网络请求的数据。
总结
本文简单的介绍了机器学习的基础知识,以下分享了周志华老师的西瓜书👇链接:https://pan.baidu.com/s/1roFPete84XPBQBIfzgwN8g
提取码:jqxx