- 这些操作都要确保已经在电脑中安装好了Anaconda集成库,如果安装好后运行出错误,可以将原来电脑中的python卸载重新安装Anaconda,建议安装时直接将添加环境变量打勾,否则以后得自己添加环境变量,在Pycharm中的编译器选择Anaconda安装文件夹中的python。在Pycharm中新建一个data文件夹用来存放数据文件。
- 打开Python Console。
- 首先在用python读取数据,需要先输入
import pandas as pd
引入pandas包,再输入df=pd.read_csv("./data/CityData.csv")
读取数据,最后输入df
显示数据。 - 分别输入
type(df)
和type(df["cid"])
可以发现两种数据类型不同。 - 计算平均值:
df.mean()
或df["xid"].mean()
- 计算中位数:输入
df.median()
或df["yid"].median
- 求四分位数:输入
df.quantile(q=0.25)
- 求众数:输入
df.mode()
或df["xid"].mode()
- 求标准差:输入
df.std()
或df["yid"].std()
- 计算方差:
df.var()
或df["xid"].var()
- 求和:
df.sum()
或df["xid"].sum()
- 计算偏态系数:
df.skew()
或df["yid"].skew()
- 计算峰态系数:
df.kurt()
或df["yid"].kurt()
- 生成正态分布函数,pandas无法直接生成,需要先引入scipy
import scipy.stats as ss
,再输入ss.norm
,这时生成的是一个正态分布的对象,我们输入ss.norm.stats(moments="mvsk")
查看一下,mvsk分别代表的是均值、方差、偏态系数、峰态系数。
这时我们可以看到生成四个值,分别对应正态分布的mvsk分别为0、1、0、0。 ss.norm.pdf(0.0)
表示横坐标为0时的纵坐标的值。ss.norm.ppf(0.9)
表示从负无穷累积到返回值时得到的值为0.9,其中ppf后的值必须在0-1之间。ss.norm.cdf(2)
表示从负无穷积分到2时的返回值,ss.norm.rvs(size=10)
可以得到10个随机的符合正态分布的数字。- 类似的,我们可以分别输入
ss.chi2
和ss.t
得到卡方分布和T分布。 - 此外我们还可以进行抽样,输入
df.sample(n=10)
从数据中抽取10个样本,输入df.sample(frac=0.1)
从数据中抽取10%的样本。
Python数据分析:简单统计量的计算
最新推荐文章于 2024-06-22 10:30:53 发布