python 分析两组数据的差异_PYTHON数据分析与处理全过程

本文介绍了使用Python进行大数据分析的过程,包括数据加载、清洗、统计分析和可视化。通过实例展示了如何处理极端值、数据分布、分组对比以及中位数和均值检验。同时,分享了数据导出、直方图绘制和区间统计的方法,适用于大规模数据处理,替代Excel操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

10590fd117403faa727280fa32589c5f.png

最近帮老师做项目,由于数据量太大,几千多家公司,100多个指标,用Excel处理很卡,非常不方便,于是逼着自己使用Python完成了绝大多数的数据清洗、分析与绘图工作。很多功能实现与代码并不是很简洁,先分享给大家一起学习改进。

由于数据敏感性,这里我们使用我伪造的一些数据作为案例,进行学习。

主要框架如下:

4f644fe45e4b3848bb04bb91593e0ce1.png

由于知乎网络编辑器比较卡,全文内容又比较长,因此很多代码没有进行过多的注释与描述,可以进我的Github项目中查找下载配套文件。

https://github.com/abugeralt/Python-Learning-Notebooks​github.com

如果你觉得本篇文章对你有用的话,欢迎点赞、收藏或转发,拜托了,这个对我真的很重要!

包的加载,与画图风格、中文字体等初始设置

import pandas as pd
import numpy as np
#设置画图风格与图片中文字体
from matplotlib import pyplot as plt
plt.style.use("ggplot")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)

导入数据与描述统计

data=pd.read_csv("data.csv")
#一般有两种编码模式,默认为utf-8,也可以用gbk
data=pd.read_csv("data.csv",encoding="utf-8")

描述性统计里主要是使用count、mean、median、describe、head、shape等命令。

如果数据太多,可以用to_csv()导出到表里再进行查看。

可以用groupby对数据进行分类汇总,我觉得这个功能其实就是EXCEL的数据透视表,PANDAS好像也有数据透视表的功能,不过我还没学,就只先用了这个。

#常用命令
data.shape
data.head()
#groupby
#这里也可以将count()改成你想要的函数,比如sum、median 
data[["年份","通过与否"]].groupby(&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值