天气网天气数据爬取

最新推荐文章于 2024-07-24 14:36:42 发布

思念变成海h

最新推荐文章于 2024-07-24 14:36:42 发布

阅读量3.5k

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/qq_44257240/article/details/106123507

版权

本文介绍了使用Python进行天气网数据爬取的过程，强调了因网站源代码可能变动，爬虫的soup部分可能需要定期更新来保持有效性的关键点。

摘要由CSDN通过智能技术生成

# -*- coding: utf-8 -*-
# 引入必要库
import pyecharts
from pyecharts.charts import Radar
from pyecharts import options as opts
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
import numpy as np

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号(X轴)


class item:
    def __init__(self):
        self.date = list()  # 日期
        self.max_temp = list()  # 最高温
        self.min_temp = list()  # 最低温
        self.weather = list()  # 天气
        self.wind_direction = list()  # 风向


Data_Box = item()  # 数据盒子


# 函数默认返回北京市2018年1月到12月的url
def get_url(city='beijing'):
    '''
    city为城市拼写的字符串，year为年份+月份
    '''
    for time in range(201801, 201813):
        url = "http://lishi.tianqi.com/{}/{}.html".format(city, time)
        yield url


def get_datas():
    urls = get_url()
    cookie = {
   
        "cityPy": "UM_distinctid=171f2280ef23fb-02a4939f3c1bd4-335e4e71-144000-171f2280ef3dab; Hm_lvt_ab6a683aa97a52202eab5b3a9042a8d2=1588905651; CNZZDATA1275796416=871124600-1588903268-%7C1588990372; Hm_lpvt_ab6a683aa97a52202eab5b3a9042a8d2=1588994046"}
    header = {
   
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko