python pandas 技巧_Pandas数据分析的一些常用小技巧

最新推荐文章于 2022-04-07 11:07:42 发布

周恰恰

最新推荐文章于 2022-04-07 11:07:42 发布

阅读量156

点赞数

文章标签： python pandas 技巧

本文链接：https://blog.csdn.net/weixin_31188927/article/details/113963077

版权

Pandas小技巧

import pandas as pd

pandas生成数据

d = {"sex": ["male", "female", "male", "female"],

"color": ["red", "green", "blue", "yellow"],

"age": [12, 56, 21, 31]}

df = pd.DataFrame(d)

sex

color

age

male

red

female

green

male

blue

female

yellow

数据替换–map映射

map() 会根据提供的函数对指定序列做映射。

map(function, iterable, …)

function – 函数

iterable – 一个或多个序列

d = {"male": 1, "female": 0}

df["gender"] = df["sex"].map(d)

sex

color

age

gender

male

red

female

green

male

blue

female

yellow

数据清洗–replace和正则

分享pandas数据清洗技巧，在某列山使用replace和正则快速完成值的清洗

d = {"customer": ["A", "B", "C", "D"],

"sales": [1000, "950.5RMB", "$400", "$1250.75"]}

df = pd.DataFrame(d)

customer

sales

1000

950.5RMB

$400

$1250.75

sales列的数据类型不同意，为后续分析，所以需要将他的格式同统一

df["sales"] = df["sales"].replace("[$,RMB]", "", regex=True).astype("float")

customer

sales

1000.00

950.50

400.00

1250.75

查看数据类型

df["sales"].apply(type)

Name: sales, dtype: object

数据透视表分析–melt函数

melt是逆转操作函数，可以将列名转换为列数据(columns name → column values)，重构DataFrame，用法如下：

参数说明：

pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name=‘value', col_level=None)

frame:要处理的数据集。

id_vars:不需要被转换的列名。

value_vars:需要转换的列名，如果剩下的列全部都要转换，就不用写了。

var_name和value_name是自定义设置对应的列名。

col_level :如果列是MultiIndex，则使用此级别。

二维表格转成一维表格

d = {"district_code": [12345, 56789, 101112, 131415],

"apple": [5.2, 2.4, 4.2, 3.6],

"banana": [3.5, 1.9, 4.0, 2.3],

"orange": [8.0, 7.5, 6.4, 3.9]

}

df = pd.DataFrame(d)

district_code

apple

banana

orange

12345

5.2

3.5

8.0

56789

2.4

1.9

7.5

101112

4.2

4.0

6.4

131415

3.6

2.3

3.9

df = df.melt(id_vars="district_code",

var_name="fruit_name",

value_name="price")

district_code

fruit_name

price

12345

apple

5.2

56789

apple

2.4

101112

apple

4.2

131415

apple

3.6

12345

banana

3.5

56789

banana

1.9

101112

banana

4.0

131415

banana

2.3

12345

orange

8.0

56789

orange

7.5

101112

orange

6.4

131415

orange

3.9

将分类中出现次数较少的值归为others

d = {"name": ['Jone', 'Alica', 'Emily', 'Robert', 'Tomas',

'Zhang', 'Liu', 'Wang', 'Jack', 'Wsx', 'Guo'],

"categories": ["A", "C", "A", "D", "A",

"B", "B", "C", "A", "E", "F"]}

df = pd.DataFrame(d)

name

categories

Jone

Alica

Emily

Robert

Others

Tomas

Zhang

Liu

Wang

Jack

Wsx

Others

Guo

Others

Python小技巧

列表推导式

例如，假设我们想创建一个正方形列表，例如

squares = []

for x in range(10):

squares.append(x**2)

squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

squares = list(map(lambda x: x**2, range(10)))

squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

squares = [x**2 for x in range(10)]

squares

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

同时还可以利用if来过滤列表

[(x, y) for x in [1,2,3] for y in [3,1,4] if x != y]

[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

列表推导式可以包含复杂表达式和嵌套函数

from math import pi

[str(round(pi, i)) for i in range(1, 6)]

['3.1', '3.14', '3.142', '3.1416', '3.14159']

列表推导式中的初始表达式可以是任意表达式，包括另一个列表推导式。

下面的列表推导式将对行和列进行转置

matrix = [

[1, 2, 3, 4],

[5, 6, 7, 8],

[9, 10, 11, 12],

]

[[row[i] for row in matrix] for i in range(4)]

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

交换变量

a = 1

b = 2

a, b = b, a

print("a = ",a)

print("b = ",b)

a = 2

b = 1

检查对象使用内存情况

sys.getsizeof()

range()函数返回的是一个类，在使用内存方面，range远比实际的数字列表更加高效

import sys

mylist = range(1,10000)

print(sys.getsizeof(mylist))

合并字典

从Python3.5开始，合并字典的操作更加简单

如果key重复，那么第一个字典的key会被覆盖

d1 ={"a":1,"b":2}

d2 = {"b":2,"c":4}

m = {**d1,**d2}

print(m)

{'a': 1, 'b': 2, 'c': 4}

字符串分割成列表

string = "the author is beishanla"

s = string.split(" ")

['the', 'author', 'is', 'beishanla']

字符串列表创建字符串

l = ["the","author","is","beishanla"]

l = " ".join(l)

'the author is beishanla'

Python查看图片

pip install Pillow

from PIL import Image

im = Image.open("E:/Python/00网络爬虫/Project/词云图跳舞视频/aip-python-sdk-4.15.1/pictures/img_88.jpg")

im.show()

print(im.format,im.size,im.mode)

JPEG (1920, 1080) RGB

欢迎搜藏，持续更新

总结

到此这篇关于Pandas数据分析的一些常用小技巧的文章就介绍到这了,更多相关Pandas数据分析技巧内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

周恰恰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫