首先感谢大佬对其文的翻译
翻译来自
https://www.cnblogs.com/chaosimple/p/4153083.html
https://www.cnblogs.com/chaosimple/p/4153083.html
5月6日
支持包numpy、pandas、matplotlib已装
一、创建对象的操作
Series 一个一维数组,由数据(numpy里的)和其索引组成,左边是索引(从0开始,事实上大部分编程索引都是从0开始,matlab不是。。。)形式如
0 1.01 3.02 5.03 NaN4 6.05 8.0
DataFrame 一个表格型数据结构,列与列可以是不同数据类型,(感觉像matlab里的结构矩阵),第一个参数是数据内容,index意为索引(定义行),columns意为纵列(还顺带学英语),打印出引用形式
df=pd.DataFrame(np.random.randn(6,4),index=[6,5,4,3,2,1],columns=list('abcd'))#通过传递numpy array(numpy数组),列表,列标签创建
print(df)
print(df.b)
print(df.b[[5]])
a b c d6 0.462182 1.438737 -1.026526 1.1778475 1.987040 0.669510 0.912596 -0.7201804 0.969278 -2.096474 -0.491031 -1.3821023 -1.599673 0.415756 -1.610329 1.8121582 -1.340213 -0.098304 -0.210603 0.1974391 -0.655284 -0.669274 0.249088 0.533626
6 1.4387375 0.6695104 -2.0964743 0.4157562 -0.0983041 -0.669274Name: b, dtype: float64
5 0.66951Name: b, dtype: float64
通过传递字典对象创建DaraFrame;
字典,一个数据容器,写法是
d = {key1 : value1, key2 : value2 }
key1,key2叫键值,可以重复,以后者值,访问字典里值的方法是d['name']。
列表,一个数据容器,写法
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]
list3 = ["a", "b", "c", "d"]
引用方法是list1[],方括号里填引用的序号,从最左边开始数是从0开始,从最后开始数是-1,-2往前数,冒号类似matlab,但是不包括最后一个数
d=[1,2,3,4]
print(d[-1])
print(d[0])
print(d[1:-1])
4
1
[2, 3]
查看数据类型很清楚了,不解释了。
二、查看数据
日后再更
------------------------我是分割线-------------------------------------------------------------------------------
5月7日更
二、查看数据
1很明显,就是行从头数还是从尾数不多说
2也很明显
3按列统计了个数、均值、标准差、最小值、25%, 50%和75%是对应的四分位数。最大值
四分位数(Quartile)是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
4转置
5找了一详细的
#生成frame
frame=pd.DataFrame(pd.Series([3,5,2,6,9,23,12,34,12,15,11,0]).reshape(3,4),columns=['c','f','d','a'],index=['C','A','B'])
c f d a
C 3 5 2 6
A 9 23 12 34
B 12 15 11 0
#将frame的行索引进行排序
frame.sort_index()
c f d a
A 9 23 12 34
B 12 15 11 0
C 3 5 2 6
#将frame的列索引进行排序
frame.sort_index(axis=1)
a c d f
C 6 3 2 5
A 34 9 12 23
B 0 12 11 15
#按frame的一个列或多个列的值进行排序
frame.sort_index(by='a')
c f d a
B 12 15 11 0
C 3 5 2 6
A 9 23 12 34
frame.sort_index(by=['a','c'])
c f d a
B 12 15 11 0
C 3 5 2 6
A 9 23 12 34
以上亲测可以
6
print(df.sort(columns='b'))
返回了这么一句AttributeError: 'DataFrame' object has no attribute 'sort' 说dataframe没有sort这个对象??
另外 摘自百度百科
数据结构
编辑
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
Ti