Series() #创建序列,类似一维数组,是pandas的基本数据结构 | s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) #创建一个序列s,每个Series都会带有一个对应的index,用来标记不同的元素,index的内容不一定是数字,也可以是字母,中文等 print(s) a 1 b 2 c 3 dtype: int64 |
DataFrame() #数据表格,类似一张二维的表格,它的每一列都是一个Series,是pandas的基本数据结构 | d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) #创建一个表 print(d) a b c 0 1 2 3 1 4 5 6 |
s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) #创建一个序列s,每个Series都会带有一个对应的index,用来标记不同的元素,index的内容不一定是数字,也可以是字母,中文等 d2 = pd.DataFrame(s) #也可以用已有的序列来创建表格 print(d2) 0 a 1 b 2 c 3 | |
DataFrame.head() #默认预览前5行数据 | d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) #创建一个表 print d.head(1) #预览前1条数据 a b c 0 1 2 3 |
DataFrame.describe() #数据基本统计量 | d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) #创建一个表 print(d.describe()) a b c count 2.00000 2.00000 2.00000 mean 2.50000 3.50000 4.50000 std 2.12132 2.12132 2.12132 min 1.00000 2.00000 3.00000 25% 1.75000 2.75000 3.75000 50% 2.50000 3.50000 4.50000 75% 3.25000 4.25000 5.25000 max 4.00000 5.00000 6.00000 |
read_excel() #读取excel文件,创建DataFrame | inputfile = '../data/catering_sale.xls' data = pd.read_excel(inputfile) print(type(data)) <class 'pandas.core.frame.DataFrame'> |
read_csv() #读取csv文件,创建DataFrame | inputfile = '../data/catering_sale.csv' data = pd.read_csvl(inputfile, encoding='utf-8') #读取文本格式的数据,一般用encoding指定编码 |
DataFrame.iloc[start,stop,interval] #取表中的行 | print(data.iloc[0]) #取第一行数据 年龄 41.000000 教育 3.000000 工龄 17.000000 地址 12.000000 收入 176.000000 负债率 9.300000 信用卡负债 11.359392 其他负债 5.008608 违约 1.000000 Name: 0, dtype: float64 |
print(data.iloc[0:8]) #取值范围0-7 年龄 教育 工龄 地址 收入 负债率 信用卡负债 其他负债 违约 0 41 3 17 12 176 9.3 11.359392 5.008608 1 1 27 1 10 6 31 17.3 1.362202 4.000798 0 2 40 1 15 14 55 5.5 0.856075 2.168925 0 3 41 1 15 14 120 2.9 2.658720 0.821280 0 4 24 2 2 0 28 17.3 1.787436 3.056564 1 5 41 2 5 5 25 10.2 0.392700 2.157300 0 6 39 1 20 9 67 30.6 3.833874 16.668126 0 7 43 1 12 11 38 3.6 0.128592 1.239408 0 | |
print(data.iloc[0:8:2]) 年龄 教育 工龄 地址 收入 负债率 信用卡负债 其他负债 违约 0 41 3 17 12 176 9.3 11.359392 5.008608 1 2 40 1 15 14 55 5.5 0.856075 2.168925 0 4 24 2 2 0 28 17.3 1.787436 3.056564 1 6 39 1 20 9 67 30.6 3.833874 16.668126 0 | |
print(data.iloc[:,:8]) #表示取8列数据,该表一供有9列 年龄 教育 工龄 地址 收入 负债率 信用卡负债 其他负债 0 41 3 17 12 176 9.3 11.359392 5.008608 1 27 1 10 6 31 17.3 1.362202 4.000798 2 40 1 15 14 55 5.5 0.856075 2.168925 3 41 1 15 14 120 2.9 2.658720 0.821280 4 24 2 2 0 28 17.3 1.787436 3.056564 5 41 2 5 5 25 10.2 0.392700 2.157300 6 39 1 20 9 67 30.6 3.833874 16.668126 7 43 1 12 11 38 3.6 0.128592 1.239408 8 24 1 3 4 19 24.4 1.358348 3.277652 9 36 1 0 13 25 19.7 2.777700 2.147300 10 27 1 0 1 16 1.7 0.182512 0.089488 | |
print(data.iloc[:,8]) #表示取第9列的数据(列从0开始计数) 0 1 1 0 2 0 3 0 4 1 5 0 6 0 7 0 8 1 9 0 10 0 | |
DataFrame.as_matrix() #将表格转换位其编号数组表示 pandas 0.23.0开始建议使用values()代替 | x = data.iloc[0:8:2].as_matrix() [[ 41. 3. 17. 12. 176. 9.3 11.359392 5.008608 1. ] [ 40. 1. 15. 14. 55. 5.5 0.856075 2.168925 0. ] [ 24. 2. 2. 0. 28. 17.3 1.787436 3.056564 1. ] [ 39. 1. 20. 9. 67. 30.6 3.833874 16.668126 0. ]] |
DateFrame.columns[index] #index作为索引项取值 | print(data.columns) #取列 #Index([u'年龄', u'教育', u'工龄', u'地址', u'收入', u'负债率', u'信用卡负债', u'其他负债', u'违约'], dtype='object') print(data.columns)[2,3,5,7] 工龄,地址,负债率,信用卡负债 |
pandas常用函数(更新中)
最新推荐文章于 2024-07-04 16:47:20 发布