python 分析两组数据的差异_PYTHON数据分析与处理全过程

最新推荐文章于 2024-06-30 03:31:29 发布

喜欢数学一辈子

最新推荐文章于 2024-06-30 03:31:29 发布

阅读量7.9k

点赞数 6

文章标签： python 分析两组数据的差异

本文链接：https://blog.csdn.net/weixin_31968831/article/details/112178509

版权

本文介绍了使用Python进行大数据分析的过程，包括数据加载、清洗、统计分析和可视化。通过实例展示了如何处理极端值、数据分布、分组对比以及中位数和均值检验。同时，分享了数据导出、直方图绘制和区间统计的方法，适用于大规模数据处理，替代Excel操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近帮老师做项目，由于数据量太大，几千多家公司，100多个指标，用Excel处理很卡，非常不方便，于是逼着自己使用Python完成了绝大多数的数据清洗、分析与绘图工作。很多功能实现与代码并不是很简洁，先分享给大家一起学习改进。

由于数据敏感性，这里我们使用我伪造的一些数据作为案例，进行学习。

主要框架如下：

由于知乎网络编辑器比较卡，全文内容又比较长，因此很多代码没有进行过多的注释与描述，可以进我的Github项目中查找下载配套文件。

https://github.com/abugeralt/Python-Learning-Notebooksgithub.com

如果你觉得本篇文章对你有用的话，欢迎点赞、收藏或转发，拜托了，这个对我真的很重要！

包的加载，与画图风格、中文字体等初始设置

import pandas as pd
import numpy as np
#设置画图风格与图片中文字体
from matplotlib import pyplot as plt
plt.style.use("ggplot")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100，默认为50
pd.set_option('max_colwidth',100)

导入数据与描述统计

data=pd.read_csv("data.csv")
#一般有两种编码模式，默认为utf-8,也可以用gbk
data=pd.read_csv("data.csv",encoding="utf-8")

描述性统计里主要是使用count、mean、median、describe、head、shape等命令。

如果数据太多，可以用to_csv()导出到表里再进行查看。

可以用groupby对数据进行分类汇总，我觉得这个功能其实就是EXCEL的数据透视表，PANDAS好像也有数据透视表的功能，不过我还没学，就只先用了这个。

#常用命令
data.shape
data.head()
#groupby
#这里也可以将count()改成你想要的函数，比如sum、median 
data[["年份","通过与否"]].groupby(&#

最低0.47元/天解锁文章