[python]爬虫爬取中国城市的空气质量数据
使用工具:pycharm/python3.7,Chrome driver
使用库:selenium,time
一、下载Chrome driver(必读)
这一步是无论执行.py还是.exe,
都要进行的一步,
在这一步我们要安装一个浏览器驱动插件,
相当于为我们的.py和.exe安装假肢。
首先,我们查看我们的浏览器版本,
打开后可以看到版本和操作系统位数,
我们要下载对应的驱动和Chrome版本相适应,
给大家推荐一个网址:
http://blog.csdn.net/huilan_same/article/details/51896672
根据自己Chrome浏览器的版本对应下载。
二、安装Chrome driver(必读)
这里需要对环境变量进行配置,
首先我们要找到Chrome浏览器的安装位置,
最简单的方法是找到Google Chrome的快捷方式,
右击选择“打开文件位置”,
将路径复制下来
然后,打开计算机——属性
然后点击高级系统配置,
点击环境变量,
将复制的Chrome路径粘贴到红框中,
别忘了用分号(;)与前面的路径分开
最后将我们下载好的Chrome driver中的exe文件粘到Chrome路径下
三、pycharm/python的下载安装与环境搭建
1、推荐使用pycharm,不过pycharm的安装过程稍微复杂。
pycharm安装包下载地址:
https://www.jetbrains.com/pycharm/download/#section=windows
下载专业版(professional)
安装操作请参考下面这位大神的文章:
https://blog.csdn.net/u014028063/article/details/80566821
2、python的安装相对于pycharm会简单一点
首先下载python软件包,
python官网:https://www.python.org/downloads/windows/
安装的详细教程,请参考:
https://blog.csdn.net/qq_25814003/article/details/80609729
四、导入库文件
1、pycharm安装库文件可以直接在软件窗口下进行,操作如下:
打开“File–>Settings”或者使用快捷键Ctrl+Alt+S
然后执行下图操作
点击右上角的“+”,在弹出的“Avaialable Packages”的搜索框中输入需要下载的库名称,再点击左下角的“Install Package”。等待,直到出现下图的情况,说明库已经安装成功。
2、安装python的库文件
windows系统和Linux系统下安装库文件的方法类似
下面介绍windows系统下安装库文件的方法
利用windows的命令运行窗口
同时按"win+R"键,输入“cmd”
在弹出的cmd窗口下输入
pip install selenium
若python版本是3.6.0+,
上述命令改为:
pip3 install selenium
五、爬取数据
1、爬取真气网的空气质量历史数据
# -*- coding:utf-8-*-
#可以利用webdriver 打开一个浏览器
from selenium import webdriver
#使时间中止至指定时间
import time
def search(url):
#利用get()方法获取网页信息并返回
return driver.get(url)
def parse_one_page(page):
#查找出网页中全部的tr标签并赋给 tr_list
tr_list = driver.find_elements_by_tag_name('tr')
return tr_list
def main():
city = input('请输入一个城市(如:北京):')
year = int(input('请起始年份(真气网的历史数据从2013年12月开始):'))
month = int(input('请起始月份:'))
now_year = int(input('请终止年份:'))
nowtime = int(input('请终止月份:'))
print('请耐心等待:')
print('正在抓取' + city + '市' + '空气质量每日历史数据:')
#创建一个csv文件
file_name = city + '.csv'
f = open(file_name,'w')
#写入表头
f.write('%s\t %s\t %s\t %s\t %s\t %s\t %s\t %s\t %s\n'