基于python+Django大数据的气象数据分析平台【python+爬虫+大数据等着】

BYSJMG

于 2024-09-29 11:46:02 发布

阅读量458

点赞数 16

分类专栏： spark大数据文章标签： python django 大数据毕业设计计算机毕设爬虫

本文链接：https://blog.csdn.net/BYSJLG/article/details/142631913

版权

spark大数据专栏收录该内容

2 篇文章 1 订阅

订阅专栏

精彩专栏推荐订阅：在下方主页👇🏻👇🏻👇🏻👇🏻

💖🔥作者主页：计算机毕设木哥🔥 💖

文章目录

一、大数据的气象数据分析平台-项目介绍
二、大数据的气象数据分析平台-视频展示
三、大数据的气象数据分析平台-开发环境
四、大数据的气象数据分析平台-系统展示
五、大数据的气象数据分析平台-代码展示
六、大数据的气象数据分析平台-项目文档展示
七、大数据的气象数据分析平台-项目总结
<font color=#fe2c24 >大家可以帮忙点赞、收藏、关注、评论啦 👇🏻

一、大数据的气象数据分析平台-项目介绍

气象数据在众多领域中扮演着重要角色，其准确性和及时性直接影响到农业、交通、城市规划等各行业的决策过程。然而，气象数据量巨大且来源分散，传统数据处理方式难以有效分析和展示这些复杂信息。针对这一问题，亟需一个能够高效收集、处理并直观展示气象数据的可视化分析平台，以提高决策效率并更好地理解气象变化规律。

本课题拟设计一个气象数据可视化分析平台，系统通过Scrapy爬虫自动获取实时气象数据，结合Spark和Hadoop进行数据的处理与分析，最后通过Django框架搭建一个Web网站。该平台具备数据采集、处理与可视化展示等核心功能，用户可通过直观的大屏展示实时查看气象数据，并可进行进一步的数据分析。系统设计旨在为用户提供便捷、高效的气象数据管理工具，平台管理者也可通过后台管理相关资源与数据。

本课题的开发具有重要意义，不仅提升了气象数据分析的效率，还为各行业的决策者提供了直观的数据展示工具。通过高效的数据处理与可视化技术，该系统可广泛应用于气象预测、灾害预警等领域，助力社会各界应对气候变化带来的挑战。

二、大数据的气象数据分析平台-视频展示

基于python+Django大数据的气象数据分析平台【python+爬虫+大数据等着】

三、大数据的气象数据分析平台-开发环境

开发语言：Python
数据库：MySQL
系统架构：B/S
后端：Django
前端：Vue
工具：PyCharm

四、大数据的气象数据分析平台-系统展示

页面展示：
在这里插入图片描述

五、大数据的气象数据分析平台-代码展示

from sklearn.svm import SVR
from dateutil import parser
import matplotlib.dates as mdates
import matplotlib.pyplot as plt
import numpy as numpy
import numpy as np
import pandas as pd
import datetime
from scipy.optimize import root, fsolve


# 收集 10 个城市的最高温和最低温，
# 用线性图表示气温最值点和离海远近之间的关系。

df_ferrara = pd.read_csv('main/ferrara_270615.csv')
df_milano = pd.read_csv('main/milano_270615.csv')
df_mantova = pd.read_csv('main/mantova_270615.csv')
df_ravenna = pd.read_csv('main/ravenna_270615.csv')
df_torino = pd.read_csv('main/torino_270615.csv')
df_asti = pd.read_csv('main/asti_270615.csv')
df_bologna = pd.read_csv('main/bologna_270615.csv')
df_piacenza = pd.read_csv('main/piacenza_270615.csv')
df_cesena = pd.read_csv('main/cesena_270615.csv')
df_faenza = pd.read_csv('main/faenza_270615.csv')


# 读取温度和日期数据
y1 = df_ravenna['temp']
x1 = df_ravenna['day']
y2 = df_faenza['temp']
x2 = df_faenza['day']
y3 = df_cesena['temp']
x3 = df_cesena['day']
y4 = df_milano['temp']
x4 = df_milano['day']
y5 = df_asti['temp']
x5 = df_asti['day']
y6 = df_torino['temp']
x6 = df_torino['day']

# 把日期从string类型转化为标准的datetime类型
day_ravenna = [parser.parse(x) for x in x1]
day_faenza = [parser.parse(x) for x in x2]
day_cesena = [parser.parse(x) for x in x3]
day_milano = [parser.parse(x) for x in x4]
day_asti = [parser.parse(x) for x in x5]
day_torino = [parser.parse(x) for x in x6]


# dis是一个装城市距离海边距离的列表
dist = [df_ravenna['dist'][0],
        df_cesena['dist'][0],
        df_faenza['dist'][0],
        df_ferrara['dist'][0],
        df_bologna['dist'][0],
        df_mantova['dist'][0],
        df_piacenza['dist'][0],
        df_milano['dist'][0],
        df_asti['dist'][0],
        df_torino['dist'][0]
        ]

# temp_max是一个存放每个城市最高温度的列表
temp_max = [df_ravenna['temp'].max(),
            df_cesena['temp'].max(),
            df_faenza['temp'].max(),
            df_ferrara['temp'].max(),
            df_bologna['temp'].max(),
            df_mantova['temp'].max(),
            df_piacenza['temp'].max(),
            df_milano['temp'].max(),
            df_asti['temp'].max(),
            df_torino['temp'].max()
            ]

# temp_min存放最低温度的列表
temp_min = [df_ravenna['temp'].min(),
            df_cesena['temp'].min(),
            df_faenza['temp'].min(),
            df_ferrara['temp'].min(),
            df_bologna['temp'].min(),
            df_mantova['temp'].min(),
            df_piacenza['temp'].min(),
            df_milano['temp'].min(),
            df_asti['temp'].min(),
            df_torino['temp'].min()
            ]
# print(temp_min)

# 先画出最高温度
fig, ax = plt.subplots()
ax.plot(dist, temp_max, 'ro')
ax.plot(dist, temp_min, 'bo')

'''
用线性回归算法得到两条直线，
分别表示两种不同的气温趋势，这样做很有趣。
我们可以使用 scikit-learn 库的 SVR 方法。
from sklearn.svm import SVR
'''

# dist1是靠近海的城市集合,dist2是远离海洋的城市集合
dist1 = dist[0:5]  # [8, 14, 37, 47, 71]
dist2 = dist[5:10]  # [121, 200, 250, 315, 357]

# 改变列表的结构，dist1现在是5个列表的集合
# 之后我们会看到 nbumpy 中 reshape() 函数也有同样的作用
# reshape()是数组array中的方法，作用是将数据重新组织
dist1 = [[x] for x in dist1]  # [[8], [14], [37], [47], [71]]
dist2 = [[x] for x in dist2]  # [[121], [200], [250], [315], [357]]

# temp_max1 是 dist1 中城市的对应最高温度
temp_max1 = temp_max[0:5]
# temp_max2 是 dist2 中城市的对应最高温度
temp_max2 = temp_max[5:10]

# 我们调用SVR函数,在参数中规定了使用线性的拟合函数 (线性函数，则称为线性拟合.线性拟合是曲线拟合的一种形式。)
# 并且把C设为1000来尽量拟合数据(因为不需要精确预测不用担心过拟合)
svr_lin1 = SVR(kernel='linear', C=1e3)
svr_lin2 = SVR(kernel='linear', C=1e3)

# 加入数据,进行拟合(这一步可能会跑很久,大概10分钟,休息一下:)
svr_lin1.fit(dist1, temp_max1)
svr_lin2.fit(dist2, temp_max2)

# reshape函数()
xp1 = np.arange(10, 100, 10).reshape((9, 1))
xp2 = np.arange(50, 400, 50).reshape((7, 1))
yp1 = svr_lin1.predict(xp1)
yp2 = svr_lin2.predict(xp2)


# 限制了x轴的取值范围
fig, ax = plt.subplots()
ax.set_xlim(0, 400)

# 画出图像
ax.plot(xp1, yp1, c='b', label='Strong sea effect')
ax.plot(xp2, yp2, c='g', label='Light sea effect')
ax.plot(dist, temp_max, 'ro')


# print(svr_lin1.coef_)       # 斜率  [[0.04794118]]
# print(svr_lin1.intercept_)  # 截距   [27.65617647]
# print(svr_lin2.coef_)       # [[0.00401274]]
# print(svr_lin2.intercept_)  # [29.98745223]


'''
考虑将这两条直线的交点
作为受海洋影响和不受海洋影响的区域的分界点
from scipy.optimize import fsolve
'''

# 定义了第一条拟合直线


def line1(x):
    a1 = svr_lin1.coef_[0][0]
    b1 = svr_lin1.intercept_[0]
    return a1 * x + b1

# 定义了第二条拟合直线


def line2(x):
    a2 = svr_lin2.coef_[0][0]
    b2 = svr_lin2.intercept_[0]
    return a2 * x + b2


# 定义了找到两条直线的交点的x坐标的函数
def findIntersection(fun1, fun2, x0):
    return fsolve(lambda x: fun1(x) - fun2(x), x0)


result = findIntersection(line1, line2, 0.0)
# print('[x,y]=[%d,%d]' % (result, line1(result)))  # 得到交点的坐标: [x,y]=[53,30]

x = np.linspace(0, 400, 31)
plt.plot(x, line1(x), x, line2(x), result, line1(result), 'ro')

plt.show()


([[0, 0], [1, 1], [2, 2]], [0, 1, 2])

六、大数据的气象数据分析平台-项目文档展示

在这里插入图片描述

七、大数据的气象数据分析平台-项目总结

课题的研究结果表明，气象数据的采集、处理和可视化展示在现代数据分析中具有重要的实际意义。通过构建气象数据可视化分析平台，能够有效解决传统方式难以高效管理、分析、展示气象数据的问题。该平台整合了数据采集、处理与可视化功能，为用户提供了一个直观的、实时的数据管理工具，提升了数据处理效率和信息利用率。爬虫技术与分布式数据处理架构的结合，使得大规模气象数据的处理更加快速、稳定，充分验证了数据处理系统设计的可行性与实用性。

从开发思想来看，本课题注重系统的模块化设计与技术选型的合理性，平台不仅具备高效的数据处理能力，还通过可视化手段使数据结果更加直观易懂。尤其是在数据量大、数据源复杂的背景下，结合分布式数据处理工具的能力，不仅提高了数据分析的深度，还增强了系统应对海量数据的可扩展性。本课题为未来类似系统的开发提供了借鉴，同时也证明了将现代数据处理技术与传统气象数据分析需求相结合的有效性。