python 分析两组数据的差异_PYTHON数据分析与处理全过程

10590fd117403faa727280fa32589c5f.png

最近帮老师做项目,由于数据量太大,几千多家公司,100多个指标,用Excel处理很卡,非常不方便,于是逼着自己使用Python完成了绝大多数的数据清洗、分析与绘图工作。很多功能实现与代码并不是很简洁,先分享给大家一起学习改进。

由于数据敏感性,这里我们使用我伪造的一些数据作为案例,进行学习。

主要框架如下:

4f644fe45e4b3848bb04bb91593e0ce1.png

由于知乎网络编辑器比较卡,全文内容又比较长,因此很多代码没有进行过多的注释与描述,可以进我的Github项目中查找下载配套文件。

https://github.com/abugeralt/Python-Learning-Notebooks​github.com

如果你觉得本篇文章对你有用的话,欢迎点赞、收藏或转发,拜托了,这个对我真的很重要!

包的加载,与画图风格、中文字体等初始设置

import pandas as pd
import numpy as np
#设置画图风格与图片中文字体
from matplotlib import pyplot as plt
plt.style.use("ggplot")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)

导入数据与描述统计

data=pd.read_csv("data.csv")
#一般有两种编码模式,默认为utf-8,也可以用gbk
data=pd.read_csv("data.csv",encoding="utf-8")

描述性统计里主要是使用count、mean、median、describe、head、shape等命令。

如果数据太多,可以用to_csv()导出到表里再进行查看。

可以用groupby对数据进行分类汇总,我觉得这个功能其实就是EXCEL的数据透视表,PANDAS好像也有数据透视表的功能,不过我还没学,就只先用了这个。

#常用命令
data.shape
data.head()
#groupby
#这里也可以将count()改成你想要的函数,比如sum、median 
data[["年份","通过与否"]].groupby(
  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值