pandas常用函数（更新中）

最新推荐文章于 2024-07-04 16:47:20 发布

ReddyGo

最新推荐文章于 2024-07-04 16:47:20 发布

阅读量432

点赞数

分类专栏： Python数据分析与挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ericsson_Liu/article/details/82430996

版权

Python数据分析与挖掘专栏收录该内容

31 篇文章 5 订阅

订阅专栏

Series() #创建序列，类似一维数组，是pandas的基本数据结构	s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) #创建一个序列s,每个Series都会带有一个对应的index，用来标记不同的元素,index的内容不一定是数字，也可以是字母，中文等 print(s) a 1 b 2 c 3 dtype: int64
DataFrame() #数据表格，类似一张二维的表格，它的每一列都是一个Series，是pandas的基本数据结构	d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) #创建一个表 print(d) a b c 0 1 2 3 1 4 5 6
DataFrame() #数据表格，类似一张二维的表格，它的每一列都是一个Series，是pandas的基本数据结构	s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) #创建一个序列s,每个Series都会带有一个对应的index，用来标记不同的元素,index的内容不一定是数字，也可以是字母，中文等 d2 = pd.DataFrame(s) #也可以用已有的序列来创建表格 print(d2) 0 a 1 b 2 c 3
DataFrame.head() #默认预览前5行数据	d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) #创建一个表 print d.head(1) #预览前1条数据 a b c 0 1 2 3
DataFrame.describe() #数据基本统计量	d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) #创建一个表 print(d.describe()) a b c count 2.00000 2.00000 2.00000 mean 2.50000 3.50000 4.50000 std 2.12132 2.12132 2.12132 min 1.00000 2.00000 3.00000 25% 1.75000 2.75000 3.75000 50% 2.50000 3.50000 4.50000 75% 3.25000 4.25000 5.25000 max 4.00000 5.00000 6.00000
read_excel() #读取excel文件，创建DataFrame	inputfile = '../data/catering_sale.xls' data = pd.read_excel(inputfile) print(type(data)) <class 'pandas.core.frame.DataFrame'>
read_csv() #读取csv文件,创建DataFrame	inputfile = '../data/catering_sale.csv' data = pd.read_csvl(inputfile, encoding='utf-8') #读取文本格式的数据，一般用encoding指定编码
DataFrame.iloc[start,stop,interval] #取表中的行	print(data.iloc[0]) #取第一行数据年龄 41.000000 教育 3.000000 工龄 17.000000 地址 12.000000 收入 176.000000 负债率 9.300000 信用卡负债 11.359392 其他负债 5.008608 违约 1.000000 Name: 0, dtype: float64
	print(data.iloc[0:8]) #取值范围0-7 年龄教育工龄地址收入负债率信用卡负债其他负债违约 0 41 3 17 12 176 9.3 11.359392 5.008608 1 1 27 1 10 6 31 17.3 1.362202 4.000798 0 2 40 1 15 14 55 5.5 0.856075 2.168925 0 3 41 1 15 14 120 2.9 2.658720 0.821280 0 4 24 2 2 0 28 17.3 1.787436 3.056564 1 5 41 2 5 5 25 10.2 0.392700 2.157300 0 6 39 1 20 9 67 30.6 3.833874 16.668126 0 7 43 1 12 11 38 3.6 0.128592 1.239408 0
	print(data.iloc[0:8:2]) 年龄教育工龄地址收入负债率信用卡负债其他负债违约 0 41 3 17 12 176 9.3 11.359392 5.008608 1 2 40 1 15 14 55 5.5 0.856075 2.168925 0 4 24 2 2 0 28 17.3 1.787436 3.056564 1 6 39 1 20 9 67 30.6 3.833874 16.668126 0
	print(data.iloc[:,:8]) #表示取8列数据，该表一供有9列年龄教育工龄地址收入负债率信用卡负债其他负债 0 41 3 17 12 176 9.3 11.359392 5.008608 1 27 1 10 6 31 17.3 1.362202 4.000798 2 40 1 15 14 55 5.5 0.856075 2.168925 3 41 1 15 14 120 2.9 2.658720 0.821280 4 24 2 2 0 28 17.3 1.787436 3.056564 5 41 2 5 5 25 10.2 0.392700 2.157300 6 39 1 20 9 67 30.6 3.833874 16.668126 7 43 1 12 11 38 3.6 0.128592 1.239408 8 24 1 3 4 19 24.4 1.358348 3.277652 9 36 1 0 13 25 19.7 2.777700 2.147300 10 27 1 0 1 16 1.7 0.182512 0.089488
	print(data.iloc[:,8]) #表示取第9列的数据(列从0开始计数) 0 1 1 0 2 0 3 0 4 1 5 0 6 0 7 0 8 1 9 0 10 0
DataFrame.as_matrix() #将表格转换位其编号数组表示 pandas 0.23.0开始建议使用values()代替	x = data.iloc[0:8:2].as_matrix() [[ 41. 3. 17. 12. 176. 9.3 11.359392 5.008608 1. ] [ 40. 1. 15. 14. 55. 5.5 0.856075 2.168925 0. ] [ 24. 2. 2. 0. 28. 17.3 1.787436 3.056564 1. ] [ 39. 1. 20. 9. 67. 30.6 3.833874 16.668126 0. ]]
DateFrame.columns[index] #index作为索引项取值	print(data.columns) #取列 #Index([u'年龄', u'教育', u'工龄', u'地址', u'收入', u'负债率', u'信用卡负债', u'其他负债', u'违约'], dtype='object') print(data.columns)[2,3,5,7] 工龄,地址,负债率,信用卡负债

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ReddyGo CSDN认证博客专家 CSDN认证企业博客

码龄9年

112: 原创

30万+: 周排名

94万+: 总排名

66万+: 访问

: 等级

5937: 积分

91: 粉丝

183: 获赞

26: 评论

727: 收藏

私信

关注

热门文章

分类专栏

最新评论

Notepad设置sql语法高亮
Nonaka_Ai: 一点用都没有啊
数据预处理-数据变换-小波变换
Zara_10Z: 您好，想问一下如果文件不是mat格式是txt格式应该怎么做
Visual Studio 2013 详细安装教程（安装+注册）
植物三由: 百度网盘链接失效了
numpy版本查询
m0_59563922: D:\pythonProject7\venv\Scripts\python.exe D:/pythonProject7/main.py Traceback (most recent call last): File "D:\pythonProject7\main.py", line 1, in <module> import numpy as np File "D:\pythonProject7\venv\lib\site-packages\numpy\__init__.py", line 155, in <module> from . import random File "D:\pythonProject7\venv\lib\site-packages\numpy\random\__init__.py", line 180, in <module> from . import _pickle File "D:\pythonProject7\venv\lib\site-packages\numpy\random\_pickle.py", line 1, in <module> from .mtrand import RandomState File "mtrand.pyx", line 1, in init numpy.random.mtrand ValueError: builtins.type size changed, may indicate binary incompatibility. Expected 888 from C header, got 880 from PyObject 大佬，报错呀，你知道什么原因吗
安装Vmware-tools时CD/DVD找不到Vmware-tools压缩包
不懂的小白: 感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。