[python养成] python基本数据结构，numpy与pandas数据结构整理

最新推荐文章于 2021-11-05 21:35:53 发布

海蛎丝Ssss

最新推荐文章于 2021-11-05 21:35:53 发布

阅读量508

点赞数 1

分类专栏： Python 数据结构

本文链接：https://blog.csdn.net/qq_37672099/article/details/81811093

版权

数据结构同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

Python

1 篇文章 0 订阅

订阅专栏

*这个账号之前因为绑定原因一直无法登陆，现在终于找回来了hhh

小号博客的东西会慢慢搬过来的（也可能不会）（我爱CSDN网站客服呜呜呜！）

一、python基本数据结构

序列是python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置，或索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。

①列表List：最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。

②元组：元组与列表类似，不同之处在于元组的元素不能修改。元组使用小括号，列表使用方括号。

③字典Dictionary：字典是另一种可变容器模型，且可存储任意类型对象。

（一）列表List

1、创建：把逗号分隔的不同的数据项使用方括号括起来即可。

list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]
list3 = ["a", "b", "c", "d"]

2、索引：列表索引从0开始，使用下标索引来访问列表中的值，同样你也可以使用方括号的形式截取字符：

print "list1[0]: ", list1[0]
print "list2[1:5]: ", list2[1:5]

以上实例输出结果：

list1[0]: physics

list2[1:5]: [2, 3, 4, 5]

再如：

>>>L = ['Google', 'Runoob', 'Taobao'] 
>>> L[2] 
'Taobao' 
>>> L[-2] 
'Runoob' 
>>> L[1:] 
['Runoob', 'Taobao'] 
>>>

Python 表达式	结果	描述
L[2]	'Taobao'	读取列表中第三个元素
L[-2]	'Runoob'	读取列表中倒数第二个元素
L[1:]	['Runoob', 'Taobao']	从第二个元素开始截取列表

3、使用append()方法来添加列表项：

list = [] ## 空列表
list.append('Google') ## 使用 append() 添加元素
list.append('Runoob') 
print list

以上实例输出结果：

['Google', 'Runoob']

4、使用 del 语句来删除列表的元素：

list1 = ['physics', 'chemistry', 1997, 2000]
print list1
del list1[2]
print "After deleting value at index 2 : "
print list1

以上实例输出结果：

['physics', 'chemistry', 1997, 2000]
After deleting value at index 2 :
['physics', 'chemistry', 2000]

5、列表对 + 和 * 的操作符与字符串相似。+ 号用于组合列表，* 号用于重复列表：

Python 表达式	结果	描述
len([1, 2, 3])	3	长度
[1, 2, 3] + [4, 5, 6]	[1, 2, 3, 4, 5, 6]	组合
['Hi!'] * 4	['Hi!', 'Hi!', 'Hi!', 'Hi!']	重复
3 in [1, 2, 3]	True	元素是否存在于列表中
for x in [1, 2, 3]: print x,	1 2 3	迭代

6、Python列表包含以下函数:

序号	函数
1	cmp(list1, list2) 比较两个列表的元素
2	len(list) 列表元素个数
3	max(list) 返回列表元素最大值
4	min(list) 返回列表元素最小值
5	list(seq) 将元组转换为列表

7、Python列表包含以下方法:

序号	方法
1	list.append(obj) 在列表末尾添加新的对象
2	list.count(obj) 统计某个元素在列表中出现的次数
3	list.extend(seq) 在列表末尾一次性追加另一个序列中的多个值（用新列表扩展原来的列表）
4	list.index(obj) 从列表中找出某个值第一个匹配项的索引位置
5	list.insert(index, obj) 将对象插入列表
6	list.pop([index=-1]) 移除列表中的一个元素（默认最后一个元素），并且返回该元素的值
7	list.remove(obj) 移除列表中某个值的第一个匹配项
8	list.reverse() 反向列表中元素
9	list.sort(cmp=None, key=None, reverse=False) 对原列表进行排序

*关于python3中将列表当做堆栈和队列的使用方法参考http://www.runoob.com/python3/python3-data-structure.html

（二）元组

1、元组创建很简单，只需要在括号中添加元素，并使用逗号隔开即可：

tup1 = ('physics', 'chemistry', 1997, 2000)
tup2 = (1, 2, 3, 4, 5 )
tup3 = "a", "b", "c", "d"
tup4 = ()  ##创建空元组
tup5 = (50,) ##元组中只包含一个元素时，需要在元素后面添加逗号

2、访问

print "tup1[0]: ", tup1[0]
print "tup2[1:5]: ", tup2[1:5]

以上实例输出结果：

tup1[0]: physics

tup2[1:5]: (2, 3, 4, 5)

3、元组中的元素值是不允许修改的，但我们可以对元组进行连接组合：

tup1 = (12, 34.56)
tup2 = ('abc', 'xyz')
# 以下修改元组元素操作是非法的。
# tup1[0] = 100
# 创建一个新的元组
tup3 = tup1 + tup2
print tup3

以上实例输出结果：

(12, 34.56, 'abc', 'xyz')

4、元组中的元素值是不允许删除的，但我们可以使用del语句来删除整个元组：

tup = ('physics', 'chemistry', 1997, 2000)
print tup
del tup
print "After deleting tup : "
print tup

以上实例元组被删除后，输出变量会有异常信息，输出如下所示：

('physics', 'chemistry', 1997, 2000)
After deleting tup :
Traceback (most recent call last):
  File "test.py", line 9, in <module>
    print tup
NameError: name 'tup' is not defined

5、元组之间可以使用 + 号和 * 号进行运算。这就意味着他们可以组合和复制，运算后会生成一个新的元组。

Python 表达式	结果	描述
len((1, 2, 3))	3	计算元素个数
(1, 2, 3) + (4, 5, 6)	(1, 2, 3, 4, 5, 6)	连接
('Hi!',) * 4	('Hi!', 'Hi!', 'Hi!', 'Hi!')	复制
3 in (1, 2, 3)	True	元素是否存在
for x in (1, 2, 3): print x,	1 2 3	迭代

6、元组的访问与截取同序列List：

L = ('spam', 'Spam', 'SPAM!')

Python 表达式	结果	描述
L[2]	'SPAM!'	读取第三个元素
L[-2]	'Spam'	反向读取，读取倒数第二个元素
L[1:]	('Spam', 'SPAM!')	截取元素

7、无关闭分隔符

任意无符号的对象，以逗号隔开，默认为元组，如下实例：

print 'abc', -4.24e93, 18+6.6j, 'xyz' 
x, y = 1, 2 
print "Value of x , y : ", x,y

以上实例运行结果：

abc -4.24e+93 (18+6.6j) xyz
Value of x , y : 1 2

8、Python元组包含了以下内置函数

序号	方法及描述
1	cmp(tuple1, tuple2) 比较两个元组元素。
2	len(tuple) 计算元组元素个数。
3	max(tuple) 返回元组中元素最大值。
4	min(tuple) 返回元组中元素最小值。
5	tuple(seq) 将列表转换为元组。

（三）字典Dictionary

1、字典的每个键值 key=>value 对用冒号 : 分割，每个键值对之间用逗号 , 分割，整个字典包括在花括号 {} 中 ,格式如下所示：

d = {key1 : value1, key2 : value2 }

2、键一般是唯一的（不允许同一个键出现两次），如果重复最后的一个键值对会替换前面的，值不需要唯一。

>>>dict = {'a': 1, 'b': 2, 'b': '3'}; 
>>> dict['b'] 
'3' 
>>> dict 
{'a': 1, 'b': '3'}

值可以取任何数据类型，但键必须是不可变的，如字符串，数字或元组，列表就不可以。

一个简单的字典实例：

dict = {'Alice': '2341', 'Beth': '9102', 'Cecil': '3258'}

也可如此创建字典：

dict1 = { 'abc': 456 }; 
dict2 = { 'abc': 123, 98.6: 37 };

#输出错误实例（键是列表时）

dict = {['Name']: 'Zara', 'Age': 7};
 
print "dict['Name']: ", dict['Name'];

3、访问：把相应的键放入方括弧

dict = {'Name': 'Zara', 'Age': 7, 'Class': 'First'};
 
print "dict['Name']: ", dict['Name'];
print "dict['Age']: ", dict['Age'];

以上实例输出结果：

dict['Name']:  Zara
dict['Age']:  7

如果用字典里没有的键访问数据，会输出错误。

4、向字典添加新内容的方法是增加新的键/值对，修改或删除已有键/值对：

dict = {'Name': 'Zara', 'Age': 7, 'Class': 'First'};
 
dict['Age'] = 8; # update existing entry
dict['School'] = "DPS School"; # Add new entry
 
 
print "dict['Age']: ", dict['Age'];
print "dict['School']: ", dict['School'];

以上实例输出结果：

dict['Age']:  8
dict['School']:  DPS School

5、能删单一的元素也能清空字典，清空只需一项操作。

显示删除一个字典用del命令，如下实例：

dict = {'Name': 'Zara', 'Age': 7, 'Class': 'First'};
 
del dict['Name']; # 删除键是'Name'的条目
dict.clear();     # 清空词典所有条目
del dict ;        # 删除词典

6、Python字典包含了以下内置函数：

序号	函数及描述
1	cmp(dict1, dict2) 比较两个字典元素。
2	len(dict) 计算字典元素个数，即键的总数。
3	str(dict) 输出字典可打印的字符串表示。
4	type(variable) 返回输入的变量类型，如果变量是字典就返回字典类型。

7、Python字典包含了以下内置方法：

序号	函数及描述
1	dict.clear() 删除字典内所有元素
2	dict.copy() 返回一个字典的浅复制
3	dict.fromkeys(seq[, val]) 创建一个新字典，以序列 seq 中元素做字典的键，val 为字典所有键对应的初始值
4	dict.get(key, default=None) 返回指定键的值，如果值不在字典中返回default值
5	dict.has_key(key) 如果键在字典dict里返回true，否则返回false
6	dict.items() 以列表返回可遍历的(键, 值) 元组数组
7	dict.keys() 以列表返回一个字典所有的键
8	dict.setdefault(key, default=None) 和get()类似, 但如果键不存在于字典中，将会添加键并将值设为default
9	dict.update(dict2) 把字典dict2的键/值对更新到dict里
10	dict.values() 以列表返回字典中的所有值
11	pop(key[,default]) 删除字典给定键 key 所对应的值，返回值为被删除的值。key值必须给出。否则，返回default值。
12	popitem() 随机返回并删除字典中的一对键和值。

二、numpy数据结构：ndarray

标准的python库中一般使用list来保存一组数值，并且可以使用自带的各种函数对数值进行各种运算。由于list中的元素可以是各种对象，list中保存的是对象的指针，这样为了保存['q','w','r']，需要生成3个指针和三个字符串对象，对于大数据量的运算来说这种显然很耗费内存和cpu。

此外python还提供了array模块，array对象和list不同，它直接保存数值，但是由于不支持多维数组，也没有各种运算函数，因此不适合做数值运算。

numpy弥补了上面二者的不足，提供了两种基本的对象，ndarray（N-dimensional array object，用来存储单一数据类型的多维数组）和ufunc（universal function object，提供能够对数组进行处理的函数）。

1、创建：可以使用给array对象传递python的序列对象来创建数组，如果传递的是多层嵌套的序列，将会创建多维的数组。

>>> a=array([1,2,3,4]) 
>>> a 
array([1, 2, 3, 4]) 
>>> b=array((4,5,6,7)) 
>>> b 
array([4, 5, 6, 7]) 
>>> c=array([[1,2,3],[4,5,6],[7,8,9]]) 
>>> c 
array([[1, 2, 3], 
       [4, 5, 6], 
       [7, 8, 9]]) 
>>> c.dtype 
dtype('int32')

2、

三、pandas数据结构

①Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：_List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。_

②Time- Series：以时间为索引的Series。

③DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。

④Panel ：三维的数组，可以理解为DataFrame的容器。