python数据处理分析报告怎么写_干货|利用Python自动根据数据生成降雨量统计分析报告...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39754142/article/details/113513556

本文介绍如何使用Python处理数据并自动生成降雨量统计分析报告。通过Pandas库处理CSV数据，分析降雨量变化，计算极值，并根据观测站数据生成详细报告，最后利用docxtpl库将结果写入Word模板。

摘要由CSDN通过智能技术生成

作者:小小明

简介:Pandas数据处理专家,10余年编码经验,至今已帮助过成千上万名数据从业者解决工作实际遇到的问题,其中数据处理和办公自动化问题涉及的行业包括会计、HR、气象、金融等等,现为菜J学Python核心技术团队成员之一。

新妆宜面下朱楼,深锁春光一院愁。大家好,我是J哥。

最近遇到一个有点烧脑的需求,其实也不算烧脑,主要是判断条件过多,对于我这种记忆力差,内存小的人来说容易出现内存溢出导致大脑宕机。也可能是因为我还没有找到能减小大脑内存压力的写法。若读者有更好的解决方案,欢迎在本文文末进行留言噢!后台回复「降雨」二字,可领取本文所用数据集和Word模板,便于大家用Python测试。先看看需求吧:

主要就是要根据左侧的表格自动生成右侧的Word统计报告,实际的各种可能性情况远比图中展示的要更加复杂。好了,直接开始干代码吧!

1数据读取

import pandas as pd

df = pd．read_csv("11月份数据．csv", encoding='gbk')

# 当前统计月份

month = 11

df = df．query('月份==@month')

df．head(10)

预览数据:

2异常数据过滤

查看缺失值数量:

pd．isnull(df)．sum()

结果:

区域 0

月份 0

降雨量(mm) 0

降雨距平(mm) 1

观测站 0

dtype: int64

仅一个缺失值数据,可直接删除:

df．dropna(inplace=True)

3计算观测站降雨量相对往年的变化

计算降雨量比往年高,跟往年比无变化,以及比往年低的次数分别是多少:

rainfall_high = df．eval('`降雨距平(mm)` > 0')．value_counts()．get(True, 0)

rainfall_equal = df．eval('`降雨距平(mm)` == 0')．value_counts()．get(True, 0)

rainfall_low = df．eval('`降雨距平(mm)` < 0')．value_counts()．get(True, 0)

print(rainfall_high, rainfall_equal, rainfall_low)

13 1 18

上面的结果中rainfall_high表示降雨量比往年平均水平高的次数,rainfall_equal表示降雨量比往年平均水平持平的次数,rainfall_low表示降雨量比往年平均水平低的次数。于是分情况讨论生成第一段的报告:p1 = f"{month}月份"

if rainfall_low == 0 or rainfall_high == 0:

if rainfall_equal != 0:

p1 += f"除{rainfall_equal}个观测站降雨量较往年无变化外,"

if rainfall_high == 0:

p1 += f"各气象观测站降雨量较往年均偏低。"

elif rainfall_low == 0:

p1 += f"各气象观测站降雨量较往年均偏高。"

else:

# 10%以内差异认为是持平

if rainfall_high > rainfall_low*1．1:

p1 += f"大部分气象观测站降雨量较往年偏高。"

elif rainfall_low > rainfall_high*1．1:

p1 += f"大部分气象观测站降雨量较往年偏低。"

else:

p1 += f"各气象观测站降雨量较往年整体持平。"

结果:

'11月份大部分气象观测站降雨量较往年偏低。'

4计算各区域降雨量的极值

再生成第二段的报告:

p2 = ""

t = df['降雨量(mm)']

p2 += f"各区域降雨量在{t．min()}～{t．max()}mm之间,其中{df．loc[t．argmax(), '区域']}区域的降雨量最大,为{t．max()}mm。"

结果:

'各区域降雨量在0．0～16．0mm之间,其中51a45区域的降雨量最大,为16．0mm。'

5分观测站统计

让我脑袋疼的地方就是从这里的代码开始的,后面还有更复杂的需求就不公布了。对每个观测站分别统计哪些区域偏高,哪些区域持平,哪些区域偏低:p3s = []

for station, tmp in df．groupby('观测站'):

t = tmp['降雨量(mm)']

p3 = f"各区域降雨量在{t．min()}～{t．max()}mm之间,"

rainfall_high_mask = tmp．eval('`降雨距平(mm)` > 0')

rainfall_equal_mask = tmp．eval('`降雨距平(mm)` == 0')

rainfall_low_mask = tmp．eval('`降雨距平(mm)` < 0')

rainfall_high = rainfall_high_mask．value_counts()．get(True, 0)

rainfall_equal = rainfall_equal_mask．value_counts()．get(True, 0)

rainfall_low = rainfall_low_mask．value_counts()．get(True, 0)

# print(rainfall_high, rainfall_equal, rainfall_low)

if rainfall_low == 0 or rainfall_high == 0:

if rainfall_equal != 0:

p3 += '除'

p3 += '、'．join(tmp．loc[rainfall_equal_mask, '区域']+'区域')

p3 += "降雨量较往年无变化外,"

if rainfall_high == 0:

p3 += f"各区域降雨量均较往年偏低"

elif rainfall_low == 0:

p3 += f"各区域降雨量均较往年偏高"

t = tmp['降雨距平(mm)']．abs()

p3 += f"{t．min()}～{t．max()}mm;"

else:

if rainfall_equal != 0:

p3 += '除'

p3 += '、'．join(tmp．loc[rainfall_equal_mask, '区域']+'区域')

p3 += "降雨量较往年无变化,"

# 10%以内差异认为是持平

if rainfall_high > rainfall_low*1．1:

if rainfall_equal == 0:

p3 += '除'

p3 += '、'．join(tmp．loc[rainfall_low_mask, '区域']+'区域')

p3 += "降雨量较往年偏低"

t = tmp．loc[rainfall_low_mask, '降雨距平(mm)']．abs()

if t．shape[0] > 1:

p3 += f"{t．min()}～{t．max()}mm"

else:

p3 += f"{t．min()}mm"

p3 += "外,"

t = tmp．loc[rainfall_high_mask, '降雨距平(mm)']．abs()

p3 += f"其余各区域降雨量较往年偏高{t．min()}～{t．max()}mm;"

elif rainfall_low > rainfall_high*1．1:

if rainfall_equal == 0:

p3 += '除'

p3 += '、'．join(tmp．loc[rainfall_high_mask, '区域']+'区域')

p3 += "降雨量较往年偏高"

t = tmp．loc[rainfall_high_mask, '降雨距平(mm)']．abs()

if t．shape[0] > 1:

p3 += f"{t．min()}～{t．max()}mm"

else:

p3 += f"{t．min()}mm"

p3 += "外,"

t = tmp．loc[rainfall_low_mask, '降雨距平(mm)']．abs()

p3 += f"其余各区域降雨量较往年偏低{t．min()}～{t．max()}mm;"

else:

if rainfall_equal != 0:

p3 = p3[:-1]+'外,'

p3 += f"各区域降雨量较往年偏高和偏低的数量持平,其中"

p3 += '、'．join(tmp．loc[rainfall_low_mask, '区域']+'区域')

p3 += "降雨量较往年偏低"

t = tmp．loc[rainfall_low_mask, '降雨距平(mm)']．abs()

if t．shape[0] > 1:

p3 += f"{t．min()}～{t．max()}mm,"

else:

p3 += f"{t．min()}mm,"

p3 += '、'．join(tmp．loc[rainfall_high_mask, '区域']+'区域')

p3 += "降雨量较往年偏高"

t = tmp．loc[rainfall_high_mask, '降雨距平(mm)']．abs()

if t．shape[0] > 1:

p3 += f"{t．min()}～{t．max()}mm;"

else:

p3 += f"{t．min()}mm;"

p3s．append([station, p3])

p3s[-1][-1] = p3s[-1][-1][:-1]+"。"

p3s

可能是我还没有想出较好的封装方式导致代码变得这么复杂,如果有巧妙解决这个问题的朋友,希望能够加菜J学Python交流群一起探讨。

6将组织好的文本写入到word中

Word模板文件docxtemplate．docx的内容:

一、{{ month }}月各气象观测站降雨量实况

(一)降水

{%p for station,p3 in p3s %}

{{ station }}:{{ p3 }}

{%p endfor %}

即:

Python渲染代码:

from docxtpl import DocxTemplate

tpl = DocxTemplate("docxtemplate．docx")

context = {

'month': month,

'p1': p1,

'p2': p2,

'p3s': p3s,

}

tpl．render(context)

tpl．save("11月降雨量报告．docx")

执行完毕,得到Word统计分析报告: