这是我们要爬取的结果:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import requests
import csv
import re
if __name__ == "__main__":
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
url = "https://www.tianqi.com/xian/30/"#指定url
hh = requests.get(url=url,headers=headers).text#text类型
img = re.findall(r'<span class="fl">(.*?)</span>', hh, re.M|re.S)#利用正则表达式爬取日期
print(img)
x = re.findall(r'<span class="fr">(.*?)</span>', hh, re.M|re.S)#爬取星期
print(x)
q = re.findall(r'<span>(\d+)</span>', hh, re.M|re.S)#爬取最高气温和最低气温
for i in range(len(q)):
q[i] = q[i] + "℃"#循环给每个数字加上摄氏度
print(q)
j = []
o = []
for i in range(len(q)-2):#这里因为是爬取的是30天的最高与最低气温共60个,这里显示的是62个,所以要减2
if i%2 == 0:
o.append(q[i])#将最高气温与最低气温分在两个列表里
else:
j.append(q[i])
w = re.findall(r'<div class="weaul_z">(.*?)<',hh,re.M|re.S)
for i in w:
if i == '':
w.remove('')#去除天气列表中的空字符
print(w)
e = re.findall(r'<div class="weaul_s">(.*?)</div>',hh,re.M|re.S)
print(e)
with open("天气.csv", 'w',encoding='utf-8',newline='') as fp:
fp1 = csv.writer(fp)
fp1.writerow(['日期','星期','最低温','最高温','天气','风向','风级'])
for i in range(len(img)):
fp1.writerow([img[i],x[i],o[i],j[i],w[i],e[i]])#以上边的形式储存在文件里
print("爬取成功!!!")
plt.style.use('ggplot')#进行气温数据可视化
x = img
yMax = []
yMin = []
again = re.findall(r'<span>(\d+)</span>', hh, re.M|re.S)#在爬取一次只含有字符数字的列表
for i in range(len(again)-2):
if i % 2 == 0:
yMin.append(int(again[i]))#将数据整数化
else:
yMax.append(int(again[i]))
fig = plt.figure()
ax1 = fig.add_subplot(1,1,1)
plt.plot(x,yMin,'b-',rotation=0,label='最低气温')
plt.plot(x,yMax,'r-',rotation=0,label='最高气温')
ax1.xaxis.set_ticks_position('bottom')
ax1.yaxis.set_ticks_position('left')
plt.xlabel("日期")
plt.ylabel("气温(单位:℃)")
fig.suptitle("西安市近期天气温度变化",fontsize=11)
plt.ylim(min(yMin)-1,max(yMax)+1)
plt.legend(loc='best')
plt.savefig("WeatherData.png",dpi=400,bbox_inches='tight')
plt.show()
将数据放在excel表格中(这里的24号是因为我是24号爬取的),嘿嘿
结果如下图所示: