python数据挖掘入门与实践 pdf读书笔记_读书笔记 python编程入门

第16章 下载数据

在本章中,主要学习从网上下载数据,并对这些数据进行可视化。网上的数据多得难以置信,且大多未经过仔细检查。如果能够对这些数据进行分析,你就能发现别人没有发现的规律和关联。

CSV文件格式

要在文本文件中存储数据,最简单的方式是将数据作为一系列以逗号分隔的值(CSV)写入文件。这样的文件称为CSV文件。CSV文件对人来说阅读起来比较困难,但程序可轻松地提取并处理其中的值,这有助于加快数据分析过程。

分析CSV文件头

csv模块包含在python标准库中,可用于分析CSV文件中的数据行,便于让我们能够快速提取感兴趣的值。

导入模块csv后,我们将要使用的文件的名称存储在filename中。接下来,我们打开这个文件,并将结果文件对象存储在f中,然后,我们调用csv.reader(),并将前面存储的文件对象作为实参传递给它,从而创建一个与该文件相关联的阅读器(reader)对象。我们调用模块csv的reader类包含的next()方法,返回文件中的下一行。在这里我们是第一次调用,因此得到的是文件的第一行,其中包含文件头。

reader处理文件中以逗号分隔的第一行数据,并将每项数据都作为一个元素存储在列表中。我们可以通过阅读文件头来确定文件包含的信息类型,相当于我们平常做表格时的表头标题行。

打印文件头及其位置

为让文件头数据更容易理解,将列表中的每个文件头及其位置打印出来。我们对列表调用了enumerate()来获取每个元素的索引及其值。

提取并读取数据

知道需要哪些列中的数据后,我们来读取这些数据。我们创建了一个名为highs的空列表,再遍历文件中余下的各行。阅读器对象从其停留的地方继续往下读取CSV文件,每次都自动返回当前所处位置的下一行。每次执行该循环时,我们都将索引1处(第2列)的数据附加到highs末尾。

然后我们使用int()将这些字符串转换为数字,让matplotlib能够读取它们。

绘制气温图表

为可视化这些气温数据,我们首先使用matplotlib创建一个显示每日最高气温的简单图形。我们将最高气温列表传递给plot(),并传递c='red'以便将数据点绘制为红色(红色显示最高气温,蓝色显示最低气温)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值