pandas中具有很多很强大的图表绘制功能,今天介绍一个简单好用的绘制数据框DataFrame中某一列数据分布直方图的函数——DataFrame.hist(),顺便介绍一个统计分析函数DataFrame.describe()。
下面通过代码进行展示效果,示例代码中的csv文件是谷歌提供的一个包含加利福尼亚州住房数据的文件。
import pandas as pd
california_housing_dataframe = pd.read_csv("https://storage.googleapis.com/mledu-datasets/california_housing_train.csv", sep=",")
print(california_housing_dataframe)
california_housing_dataframe.describe()
以上代码首先通过pandas提供的read_csv()函数读取了csv文件,将其保存为数据框DataFrame类型的数据。然后使用了DataFrame.describe()函数展示了一些有用的统计信息,这个函数在分析一个较大的csv文件时,作为初步的分析工具非常有用。统计结果包括了数据量、均值、方差、最大值、最小值等。以上代码的输出如下:
longitude latitude housing_median_age total_rooms total_bedrooms \
0 -114.31 34.19 15.0 5612.0 1283.0
1 -114.47 34.40 19.0 7650.0 1901.0
2 -114.56 33.69 17.0 720.0 174.0
3 -114.57 33.64 14.0 1501.0 337.0
4 -114.57 33.57 20.0 1454.0 326.0
5 -114.58 33.63 29.0 1387.0 236.0
6 -114.58 33.61 25.0 2907.0 680.0
7 -114.59 34.83 41.0 812.0 168.0
8 -114.59 33.61 34.0 4789.0 1175.0
9 -114.60 34.83 46.0 1497.0 309.0
10 -114.60 33.62 16.0 3741.0 801.0
11 -114.60 33.60 21.0 1988.0 483.0
12 -114.61 34.84 48.0 1291.0 248.0
13 -114.61 34.83 31.0 2478.0 464.0
14 -114.63 32.76 15.0 1448.0 378.0
15 -114.65 34.89 17.0 2556.0 587.0
16 -114.65 33.60 28.0 1678.0 322.0
17 -114.65 32.79