python 爬取城市空气质量数据

[python]爬虫爬取中国城市的空气质量数据

使用工具:pycharm/python3.7,Chrome driver
使用库:selenium,time

一、下载Chrome driver(必读)

这一步是无论执行.py还是.exe,
都要进行的一步,
在这一步我们要安装一个浏览器驱动插件,
相当于为我们的.py和.exe安装假肢。
首先,我们查看我们的浏览器版本,
在这里插入图片描述
打开后可以看到版本和操作系统位数,
我们要下载对应的驱动和Chrome版本相适应,
给大家推荐一个网址:
http://blog.csdn.net/huilan_same/article/details/51896672

根据自己Chrome浏览器的版本对应下载。
在这里插入图片描述

二、安装Chrome driver(必读)

这里需要对环境变量进行配置,
首先我们要找到Chrome浏览器的安装位置,
最简单的方法是找到Google Chrome的快捷方式,
右击选择“打开文件位置”,
将路径复制下来
然后,打开计算机——属性
然后点击高级系统配置,
在这里插入图片描述
点击环境变量,
在这里插入图片描述
在这里插入图片描述
将复制的Chrome路径粘贴到红框中,
别忘了用分号(;)与前面的路径分开
在这里插入图片描述
最后将我们下载好的Chrome driver中的exe文件粘到Chrome路径下
在这里插入图片描述

三、pycharm/python的下载安装与环境搭建

1、推荐使用pycharm,不过pycharm的安装过程稍微复杂。
pycharm安装包下载地址:
https://www.jetbrains.com/pycharm/download/#section=windows
在这里插入图片描述
下载专业版(professional)
安装操作请参考下面这位大神的文章:
https://blog.csdn.net/u014028063/article/details/80566821

2、python的安装相对于pycharm会简单一点
首先下载python软件包,
python官网:https://www.python.org/downloads/windows/

安装的详细教程,请参考:
https://blog.csdn.net/qq_25814003/article/details/80609729

四、导入库文件

1、pycharm安装库文件可以直接在软件窗口下进行,操作如下:
打开“File–>Settings”或者使用快捷键Ctrl+Alt+S
在这里插入图片描述
然后执行下图操作
在这里插入图片描述
点击右上角的“+”,在弹出的“Avaialable Packages”的搜索框中输入需要下载的库名称,再点击左下角的“Install Package”。等待,直到出现下图的情况,说明库已经安装成功。
在这里插入图片描述
2、安装python的库文件
windows系统和Linux系统下安装库文件的方法类似
下面介绍windows系统下安装库文件的方法
利用windows的命令运行窗口
同时按"win+R"键,输入“cmd”
在弹出的cmd窗口下输入

pip install selenium

若python版本是3.6.0+,
上述命令改为:

pip3 install selenium

在这里插入图片描述

五、爬取数据

1、爬取真气网的空气质量历史数据

# -*- coding:utf-8-*-

#可以利用webdriver 打开一个浏览器
from selenium import webdriver

#使时间中止至指定时间
import time

def search(url):
    #利用get()方法获取网页信息并返回
    return driver.get(url)

def parse_one_page(page):
    #查找出网页中全部的tr标签并赋给 tr_list
    tr_list = driver.find_elements_by_tag_name('tr')
    return tr_list

def main():
    city = input('请输入一个城市(如:北京):')
    year = int(input('请起始年份(真气网的历史数据从2013年12月开始):'))
    month = int(input('请起始月份:'))
    now_year = int(input('请终止年份:'))
    nowtime = int(input('请终止月份:'))
    print('请耐心等待:')
    print('正在抓取' + city + '市'  + '空气质量每日历史数据:')

    #创建一个csv文件
    file_name = city + '.csv'
    f = open(file_name,'w')
    #写入表头
    f.write('%s\t %s\t %s\t %s\t %s\t %s\t %s\t %s\t %s\n'
  • 9
    点赞
  • 105
    收藏
    觉得还不错? 一键收藏
  • 22
    评论
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值