服务器自然环境:(Python2.7.9 / Win8_64 / bs4)
运用BeautifulSoup4来爬取 上的PM2.5数据信息,往往爬取这一网址,是由于上边有大城市PM2.5浓度值排行(实际上真实的缘故是,它是百度搜PM2.5出去的第一个网址!)
程序流程里只比照了2个大城市,因此 线程同步的速率提高并并不是很显著,大伙儿能够弄10个大城市并开10个进程试一下。
最终调侃一下:上海市的空气指数如何那么差!!!
PM25.py
编码以下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# by ustcwq
import urllib2
import threading
from time import ctime
from bs4 import BeautifulSoup
def getPM25(cityname):
site = ‘’ cityname ‘.html’
html = urllib2.urlopen(site)
soup = BeautifulSoup(html)
city = soup.find(class_ = ‘bi_loaction_city’) # 城市名称
aqi = soup.find(“a”,{“class”,”bi_aqiarea_num”}) # AQI指数值
quality = soup.select(“.bi_aqiarea_right span”) # 空气指数级别
result = soup.find(“div”,class_ &