机器学习之旅

在python官网下载python3.10版本的64位安装包

首先使用pip install numpy和pip install scipy命令安装numpy和scipy库,然后使用pip install scikit-learn命令下载iris鸢尾花数据集,然后使用pip install pandas安装

 如果安装库的时候提示包管理工具pip版本可以升级,这时按照提示复制粘贴输入命令即可

 安装jupyter notebook

 

启动 jupyter notebook

关闭jupyter notebook网页后,应该在cmd命令行连按两次ctrl+c退出编译模式

pip uninstall+库名 命令可卸载相应库

假设空间和版本空间

一开始看到这一节的时候被搞晕了,要搞清楚这个问题,必须要理解假设空间和版本空间的意义。

对于一个瓜是不是好瓜,要有一个判定条件,这个判定条件就是一个假设。比如说,我们的假设是:色泽青绿 、根蒂蜷缩 、敲声浊响的瓜 是好瓜。或者我们也可以假设 :只要色泽青绿 、根蒂蜷缩的瓜,无论敲声随便是什么声音(书中用通配符*表示),都是好瓜。极端情况下,我们也可以假设世界上是没有好瓜的,不管是什么颜色什么根蒂什么敲声,都是坏瓜(书中用空集表示)。

上面只是举了几种可能的假设的例子。这样,我们数一下一共可以做出几种假设。由于色泽、根蒂、敲声各有4种可能取值(别忘记随便取值的情况),我们根据这些取值的排列组合,一共可以做出4*4*4=64种假设,再加上“没有好瓜”的这种极端假设,共有65种假设。这65种假设构成的集合,叫做假设空间。

这时,我们有了一些训练集(西瓜书表1.1所示),我们对“什么是好瓜、什么是坏瓜”有了一定的了解。这样以来,通过这些有限的训练集,我们就知道上面这65种假设中,有些有错误的,有些假设可能正确。我们要做的,是排除错误的假设。也就是说,假设版本要和训练集“匹配”。

下面举例说明“匹配”的意义。比如我们上面的假设,色泽青绿 、根蒂蜷缩 、敲声浊响的瓜 是好瓜。这句话本身并没有问题,但是它作为一种假设,需要被剔除。因为当我们做出这种假设时,意味着色泽乌黑 、根蒂蜷缩 、敲声浊响的瓜不是好瓜,这和表中第二个训练样本是矛盾的,训练表明色泽乌黑 、根蒂蜷缩 、敲声浊响的瓜也是好瓜。再比如说,色泽=*,根蒂=*,敲声是浊响的瓜是好瓜。如果我们做出这种假设,对于表中的4种训练样本,在这种假设下都能做出正确的判断。对于色泽是浅白,根蒂蜷缩,敲声浊响的瓜,根据这种假设,我们也能做出是好瓜的判断,只是这种判断可能正确可能错误。因此,要想判断的正确,就要全面、大量的训练,以排除更多假设空间中的错误假设。错误假设越少,剩下的假设越少,就越有可能是正确假设,我们判断的结果的正确概率越大。按照这种思路排除错误假设,剩下的那些假设就构成了版本空间。这个空间随训练集的版本不同,会变化,所以叫版本空间。

也就是说,训练样本的这些假设只是版本空间的一个子集。这就是所谓的“泛化”。泛化的意思也就是,根据某些偏好,我们选择了版本空间里的一种假设作为判断好瓜坏瓜的决策准则,我能对训练集中的样本做出正确的判断,对于训练集中没有训练到的样本,我们也可以做出判断,但是判断结果可能是错误的。
————————————————
版权声明:本文为CSDN博主「阿卧鹅」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_20936739/article/details/77982056

最后得到的版本空间中每一条都要能适用于训练集中所有正例

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值