
最近帮老师做项目,由于数据量太大,几千多家公司,100多个指标,用Excel处理很卡,非常不方便,于是逼着自己使用Python完成了绝大多数的数据清洗、分析与绘图工作。很多功能实现与代码并不是很简洁,先分享给大家一起学习改进。
由于数据敏感性,这里我们使用我伪造的一些数据作为案例,进行学习。
主要框架如下:

由于知乎网络编辑器比较卡,全文内容又比较长,因此很多代码没有进行过多的注释与描述,可以进我的Github项目中查找下载配套文件。
https://github.com/abugeralt/Python-Learning-Notebooksgithub.com如果你觉得本篇文章对你有用的话,欢迎点赞、收藏或转发,拜托了,这个对我真的很重要!
包的加载,与画图风格、中文字体等初始设置
import pandas as pd
import numpy as np
#设置画图风格与图片中文字体
from matplotlib import pyplot as plt
plt.style.use("ggplot")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)
导入数据与描述统计
data=pd.read_csv("data.csv")
#一般有两种编码模式,默认为utf-8,也可以用gbk
data=pd.read_csv("data.csv",encoding="utf-8")
描述性统计里主要是使用count、mean、median、describe、head、shape等命令。
如果数据太多,可以用to_csv()导出到表里再进行查看。
可以用groupby对数据进行分类汇总,我觉得这个功能其实就是EXCEL的数据透视表,PANDAS好像也有数据透视表的功能,不过我还没学,就只先用了这个。
#常用命令
data.shape
data.head()
#groupby
#这里也可以将count()改成你想要的函数,比如sum、median
data[["年份","通过与否"]].groupby(&#