2019.3.3开始学习-2019.3.结束学习()
**·**2019.3.3_第五章P83-P89
P84页提到‘分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。’看到这里,我这个一窍不通的小胖又开始对有监督学习和无监督学习产生疑问了,于是找了一篇写的不错的博文补了补常识,见 https://blog.csdn.net/u010947534/article/details/82025794 。为作学习参考,我摘录其中一些话如下:
- ‘监督学习就是从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果,其目标往往是让计算机去学习我们已经创建好的分类系统’
- ‘而无监督学习的输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。’
在我输入P88页的代码清单5-1时,出现了错误
[Errno 22] Invalid argument: 'D:\\Learning\\Python_data_code\x08ankloan.xls'
很奇怪的是,之前没有出现过这样的错误啊,仔细查看了一下我的源代码
import pandas as pd
filename = 'D:\Learning\Python_data_code\bankloan.xls
好的,我想我知道问题所在了,修改如下:
import pandas as pd
filename = 'D:/Learning/Python_data_code/bankloan.xls'`
问题解决了。
关于P88的代码清单5-1,若原封不动按照书中写上去,会出现错误:
IndexError: boolean index did not match indexed array along dimension 0; dimension i