深刻学习“十分钟学会pandas”,践行科学学习观,弘扬学习使我快乐精神

这篇博客详细介绍了pandas的基本操作,包括创建Series和DataFrame、数据查看、选择、合并与连接,以及分组等关键功能。通过实例演示了merge()函数的不同用法和how参数,展示了如何在Python中高效地进行数据处理和分析。
摘要由CSDN通过智能技术生成

首先感谢大佬对其文的翻译

翻译来自
https://www.cnblogs.com/chaosimple/p/4153083.html

5月6日

支持包numpy、pandas、matplotlib已装

一、创建对象的操作


Series  一个一维数组,由数据(numpy里的)和其索引组成,左边是索引(从0开始,事实上大部分编程索引都是从0开始,matlab不是。。。)形式如

0 1.01 3.02 5.03 NaN4 6.05 8.0

DataFrame  一个表格型数据结构,列与列可以是不同数据类型,(感觉像matlab里的结构矩阵),第一个参数是数据内容,index意为索引(定义行),columns意为纵列(还顺带学英语),打印出引用形式
 
df=pd.DataFrame(np.random.randn(6,4),index=[6,5,4,3,2,1],columns=list('abcd'))#通过传递numpy array(numpy数组),列表,列标签创建
print(df)
print(df.b)
print(df.b[[5]])

 
a b c d6 0.462182 1.438737 -1.026526 1.1778475 1.987040 0.669510 0.912596 -0.7201804 0.969278 -2.096474 -0.491031 -1.3821023 -1.599673 0.415756 -1.610329 1.8121582 -1.340213 -0.098304 -0.210603 0.1974391 -0.655284 -0.669274 0.249088 0.533626
6 1.4387375 0.6695104 -2.0964743 0.4157562 -0.0983041 -0.669274Name: b, dtype: float64
5 0.66951Name: b, dtype: float64

通过传递字典对象创建DaraFrame;
字典,一个数据容器,写法是
d = {key1 : value1, key2 : value2 }
key1,key2叫键值,可以重复,以后者值,访问字典里值的方法是d['name']。

列表,一个数据容器,写法
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]
list3 = ["a", "b", "c", "d"]
引用方法是list1[],方括号里填引用的序号,从最左边开始数是从0开始,从最后开始数是-1,-2往前数,冒号类似matlab,但是不包括最后一个数
d=[1,2,3,4]
print(d[-1])
print(d[0])
print(d[1:-1])
4
1
[2, 3]

查看数据类型很清楚了,不解释了。

二、查看数据 
日后再更



------------------------我是分割线-------------------------------------------------------------------------------



5月7日更

二、查看数据

1很明显,就是行从头数还是从尾数不多说
2也很明显
3按列统计了个数、均值、标准差、最小值、25%, 50%和75%是对应的四分位数。最大值
四分位数(Quartile)是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
4转置

5找了一详细的
#生成frame
frame=pd.DataFrame(pd.Series([3,5,2,6,9,23,12,34,12,15,11,0]).reshape(3,4),columns=['c','f','d','a'],index=['C','A','B'])
   c    f   d   a
C   3   5   2   6
A   9   23  12  34
B   12  15  11  0

#将frame的行索引进行排序
frame.sort_index()
    c   f   d   a
A   9   23  12  34
B   12  15  11  0
C   3   5   2   6

#将frame的列索引进行排序
frame.sort_index(axis=1)
   a    c   d   f
C   6   3   2   5
A   34  9   12  23
B   0   12  11  15

#按frame的一个列或多个列的值进行排序
frame.sort_index(by='a')
    c   f   d   a
B   12  15  11  0
C   3   5   2   6
A   9   23  12  34
frame.sort_index(by=['a','c'])
    c   f   d   a
B   12  15  11  0
C   3   5   2   6
A   9   23  12  34
以上亲测可以

6
 
print(df.sort(columns='b'))

返回了这么一句AttributeError: 'DataFrame' object has no attribute 'sort' 说dataframe没有sort这个对象??

另外 摘自百度百科

数据结构

编辑
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
Ti
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值