《Python数据分析与挖掘实战》学习笔记（三）

最新推荐文章于 2023-11-14 21:31:56 发布

MercyMeng

最新推荐文章于 2023-11-14 21:31:56 发布

阅读量692

点赞数

本文链接：https://blog.csdn.net/lmx724724/article/details/88094334

版权

本文记录了作者在学习《Python数据分析与挖掘实战》第五章和第六章过程中遇到的问题及解决方案，涉及分类模型、监督学习与无监督学习的区别、信息熵、决策树、Keras安装与使用、Apriori关联规则、离群点检测等知识点。作者通过查阅资料和实践，逐步理解和解决了学习中遇到的难点。

摘要由CSDN通过智能技术生成

2019.3.3开始学习-2019.3.结束学习（）

**·**2019.3.3_第五章P83-P89
P84页提到‘分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便地计算，所以分类属于有监督的学习。’看到这里，我这个一窍不通的小胖又开始对有监督学习和无监督学习产生疑问了，于是找了一篇写的不错的博文补了补常识，见 https://blog.csdn.net/u010947534/article/details/82025794 。为作学习参考，我摘录其中一些话如下：

‘监督学习就是从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果，其目标往往是让计算机去学习我们已经创建好的分类系统’
‘而无监督学习的输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。’

在我输入P88页的代码清单5-1时，出现了错误
[Errno 22] Invalid argument: 'D:\\Learning\\Python_data_code\x08ankloan.xls'
很奇怪的是，之前没有出现过这样的错误啊，仔细查看了一下我的源代码

import pandas as pd
filename = 'D:\Learning\Python_data_code\bankloan.xls

好的，我想我知道问题所在了，修改如下：

import pandas as pd
filename = 'D:/Learning/Python_data_code/bankloan.xls'`

问题解决了。

关于P88的代码清单5-1，若原封不动按照书中写上去，会出现错误：
IndexError: boolean index did not match indexed array along dimension 0; dimension i

最低0.47元/天解锁文章

MercyMeng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫