高效Python数据分析的技巧（附完整代码）

置顶卢政权

已于 2024-06-29 15:34:04 修改

阅读量469

点赞数 15

文章标签： python 开发语言

于 2024-06-28 12:17:43 首次发布

本文链接：https://blog.csdn.net/luzhengquan/article/details/140040101

版权

本文为你介绍了8个使用 Python 进行数据分析的方法，不仅能够提升运行效率，还能够使代码更加“优美”。

01 一行代码定义List

定义某种列表时，写For 循环过于麻烦，幸运的是，Python有一种内置的方法可以在一行代码中解决这个问题。下面是使用For循环创建列表和用一行代码创建列表的对比。

x = [1,2,3,4]
out = []
for item in x:
  out.append(item**2)
print(out)

[1, 4, 9, 16]

# vs.

x = [1,2,3,4]
out = [item**2 for item in x]
print(out)

[1, 4, 9, 16]

02 Lambda表达式

厌倦了定义用不了几次的函数？Lambda表达式是你的救星！Lambda表达式用于在Python中创建小型，一次性和匿名函数对象，它能替你创建一个函数。

lambda表达式的基本语法是：

lambda arguments: expression

注意！只要有一个lambda表达式，就可以完成常规函数可以执行的任何操作。

你可以从下面的例子中，感受lambda表达式的强大功能：

double = lambda x: x * 2
print(double(5))

10

03 Map和Filter
一旦掌握了lambda表达式，学习将它们与Map和Filter函数配合使用，可以实现更为强大的功能。具体来说，map通过对列表中每个元素执行某种操作并将其转换为新列表。

在本例中，它遍历每个元素并乘以2，构成新列表。（注意！list()函数只是将输出转换为列表类型）

# Map
seq = [1, 2, 3, 4, 5]
result = list(map(lambda var: var*2, seq))
print(result)

[2, 4, 6, 8, 10]

Filter函数接受一个列表和一条规则，就像map一样，但它通过比较每个元素和布尔过滤规则来返回原始列表的一个子集。

# Filter
seq = [1, 2, 3, 4, 5]
result = list(filter(lambda x: x > 2, seq))
print(result)

[3, 4, 5]

03 Pivot Tables

如果您熟悉Microsoft Excel，那么你也许听说过数据透视表。

Pandas内置的pivot_table函数以DataFrame的形式创建电子表格样式的数据透视表,，它可以帮助我们快速查看某几列的数据。

下面是几个例子：

非常智能地将数据按照“Manager”分了组：

pd.pivot_table(df, index=["Manager", "Rep"])

或者也可以筛选属性值：

pd.pivot_table(df,index=["Manager","Rep"],values=["Price"])

04 Pandas Apply

Apply是为Pandas Series而设计的。如果你不太熟悉Series，可以将它想成类似Numpy的数组。

Apply将一个函数应用于指定轴上的每一个元素。使用Apply，可以将DataFrame列（是一个Series）的值进行格式设置和操作，不用循环，非常有用！

df = pd.DataFrame([[4, 9],] * 3, columns=['A', 'B'])
 df
   A  B
0  4  9
1  4  9
2  4  9

df.apply(np.sqrt)
     A    B
0  2.0  3.0
1  2.0  3.0
2  2.0  3.0

df.apply(np.sum, axis=0)
A    12
B    27

df.apply(np.sum, axis=1)
0    13
1    13
2    13

05 Concat、Merge和Join

如果您熟悉SQL，那么这些概念对你来说可能会更容易。无论如何，这些函数本质上就是以特定方式组合DataFrame的方式。在哪个时间跟踪哪一个最适合使用可能很困难，所以让我们回顾一下。

Concat允许用户在表格下面或旁边追加一个或多个DataFrame（取决于您如何定义轴）。

Merge将多个DataFrame合并指定主键（Key）相同的行。

Join，和Merge一样，合并了两个DataFrame。但它不按某个指定的主键合并，而是根据相同的列名或行名合并。

06 ndarray的排序

np.sort()与ndarray.sort()都可以，但有区别：

np.sort()不改变输入
ndarray.sort()本地处理，不占用空间，但改变输入

arr
输出：
array([[10, 16, 65, 29],
       [90, 94, 30,  9],
       [74,  1, 41, 37]])

# 对arr每列排序
np.sort(arr,axis=0)
输出：
array([[10,  1, 30,  9],
       [74, 16, 41, 29],
       [90, 94, 65, 37]])
arr
输出：
array([[10, 16, 65, 29],
       [90, 94, 30,  9],
       [74,  1, 41, 37]])

# 对arr每列排序
arr.sort(axis=0)
arr
输出：
array([[10,  1, 30,  9],
       [74, 16, 41, 29],
       [90, 94, 65, 37]])

# 对arr每行排序
arr.sort(axis=0)
arr
输出：
array([[ 1,  9, 10, 30],
       [16, 29, 41, 74],
       [37, 65, 90, 94]])

07 Series

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

pandas.Series( data, index, dtype, name, copy)

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

08 Series创建

# 使用列表创建Series
Series(data=[1,2,3])
输出：
0    1
1    2
2    3
dtype: int64
索引：0，1，2
数据：1，2，3
数据类型：int64

# 指定索引值，显示索引
Series(data=[1,2,3],index = ["x", "y", "z"])
输出：
x    1
y    2
z    3
dtype: int64

# 使用 key/value 对象，类似字典来创建 Series：
Series(data={'x':1,'y':2,'z':3})
输出：
x    1
y    2
z    3
dtype: int64

# 若只需字典中的一部分数据，只需要指定需要数据的索引即可
Series(data={'x':1,'y':2,'z':3}, index = ['x','z'])
输出：
x    1
z    3
dtype: int64

# 设置 Series 名称参数
Series(data={'x':1,'y':2,'z':3}, index = ['x','z'],name = 'Series_Name')
输出：
x    1
z    3
Name: Series_Name, dtype: int64

08.1Series的索引和切片

使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的是一个Series类型）。

显式索引：

- 使用index中的元素作为索引值
- 使用s.loc[]（推荐）:注意，loc中括号中放置的一定是显示索引

s = Series([1,2,3],index=['a','b','c'])
s[1]
输出：
2

s[[1,2]]
输出：
b    2
c    3
dtype: int64

s['a']
输出：
1

s.a
输出：
1

s.loc['a']
输出：
1

s.loc[['a','b']]
输出：
a    1
b    2
dtype: int64

3.隐式索引：

- 使用整数作为索引值，
- 使用.iloc[]（推荐）:iloc中的中括号中必须放置隐式索引

s = Series([1,2,3],index=['a','b','c'])
# 隐式索引为右开区间，最后一个索引不引用
s[1:2]
输出：
b    2
dtype: int64

# 显式索引为右开区间，最后一个索引引用
s['a':'b']
输出：
a    1
b    2
dtype: int64