一个完整的大作业
1.选择一个自己感兴趣的问题
我选取的是一个中国天气预报网站,爬去‘’ http://www.weather.com.cn/textFC/hb.shtml‘’的内容。
全球气候变暖是一种和自然有关的现象,是由于温室效应不断积累,导致地气系统吸收与发射的能量不平衡,能量不断在地气系统累积,从而导致温度上升,造成全球气候变暖。在人类近代历史中才有一些温度记录。这些记录的来源不同,精确度和可靠性也参差不齐。在1850年前的一两千年中,虽然曾经出现中世纪温暖时期与小冰河时期,但是大众一直相信全球温度是相对稳定的。在1860年才有类似全球温度的仪器记录,当年的记录很少考虑的城市热岛效应的影响。但是根据仪器记录,1860~1900年期间,全球陆地与海洋的平均温度上升了0.75℃;自1979年开始,陆地温度上升幅度约为海洋温度上升幅度的一倍(陆地温度上升了0.25℃,而海洋温度上升了0.13℃)。同年,人类开始利用卫星温度测量来量度对流层的温度,发现对流层的温度每十年上升0.12℃至0.22℃。2000年之后,多方组织对过去1000年的全球温度进行了研究,对这些研究成果进行对比和讨论后发现,自1979年开始的气候转变的过程是十分清晰。此外,其他的研究报告显示,从20世纪初开始至今,地球表面的平均温度增加了约1.1f(0.6℃);在过去的40年中,平均气温上升约0.5f(0.2-0.3℃);在20世纪,全球变暖的程度是更超过在过去400-600年中任何一段时间.。
2.网络上爬取相关的数据。
源代码如下:
import time
from echarts import Echart, Bar, Axis
from bs4 import BeautifulSoup # 网络分析
# pip install echarts-python 百度开源的做图标的库
# 定义全局列表
TEMPERAUTE_LIST = []
CITY_LIST = []
MIN_LIST = []
MAX_LIST = []
# 定义获取并过滤数据函数
def get_temperature(url):
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')
conMidtab = soup.find('div', class_='conMidtab')
conMidtab2_list = conMidtab.find_all('div', class_='conMidtab2')
for x in conMidtab2_list:
tr_list = x.find_all('tr')[2:]
province = ''
min = 0
for index, tr in enumerate(tr_list):
# 如果是第0个tr标签,那么城市名名和省份是放在同一行tr的,省份名放在td[0],城市名放在td[1]
if index == 0:
td_list = tr.find_all('td')
province = td_list[0].text.replace('\n', '')
city = td_list[1].text.replace('\n', '')
max = td_list[4].text.replace('\n', '')
min = td_list[7].text.replace('\n', '')
else:
# 如果不是第0个tr标签,那么在这个tr标签中只存放城市名,城市名放在td[0]
td_list = tr.find_all('td')
city = td_list[0].text.replace('\n', '')
max = td_list[3].text.replace('\n', '')
min = td_list[6].text.replace('\n', '')
# print(province + '省 ' + city + '市', max + '℃', min + '℃')
TEMPERAUTE_LIST.append({
'city': province + city,
'min': min
})
CITY_LIST.append(province + city)
MIN_LIST.append(min)
def main():
urls = ['http://www.weather.com.cn/textFC/hb.shtml ',
'http://www.weather.com.cn/textFC/db.shtml ',
'http://www.weather.com.cn/textFC/hd.shtml ',
'http://www.weather.com.cn/textFC/hz.shtml ',
'http://www.weather.com.cn/textFC/hn.shtml ',
'http://www.weather.com.cn/textFC/xb.shtml ',
'http://www.weather.com.cn/textFC/xn.shtml ',
]
for url in urls:
get_temperature(url)
time.sleep(2)
SORTED_TOP20_TEMPERATURE_LIST=sorted(TEMPERAUTE_LIST,lambda
x,y:cmp(int(x['min']),int(y['min'])))
TOP20_TEMPERATURE_LIST =SORTED_TOP20_TEMPERATURE_LIST[0:20]
TOP20_CITY_LIST =[]
TOP20_MIN_LIST =[]
for city_min in TOP20_TEMPERATURE_LIST:
TOP20_CITY_LIST.append(city_min['city'])
TOP20_MIN_LIST.append(city_min['min'])
echart = Echart(u'全国最低温度排名', u'气温统计')
bar = Bar(u'最低温度', TOP20_MIN_LIST) # 纵坐标
axis = Axis('category', 'bottom', data=TOP20_CITY_LIST) # 横坐标
echart.use(bar) # 画布画纵坐标
echart.use(axis) # 画布画横坐标
echart.plot()
if __name__ == '__main__':
main()
3、运行结果:
全国最高最低气温统计表
全国最低气温排名