Pandas 简单例子

最新推荐文章于 2024-05-10 02:53:00 发布

霜序0.2℃

最新推荐文章于 2024-05-10 02:53:00 发布

阅读量1.3k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/Dueser/article/details/110558288

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

Pandas

Pandas

import pandas as pd
import numpy as np
print(pd.__version__)

1.1.3

1. 创建一个如下所示的DataFrame

`	Apple	Banana
2017 Sale	35	21
2018 Sale	41	34

2. 从list，dict，numpy array 创建Series

#输入
import numpy as np
a_list = list("abcdefg")
numpy_array = np.arange(1, 10)
dictionary = {"A":  0, "B":1, "C":2, "D":3, "E":5}

series1 = pd.Series(a_list)
print(series1)
series2 = pd.Series(numpy_array)
print(series2)
series3 = pd.Series(dictionary)
print(series3)

0    a
1    b
2    c
3    d
4    e
5    f
6    g
dtype: object
0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int32
A    0
B    1
C    2
D    3
E    5
dtype: int64

3. 将系列Series转换为一个DataFrame，并将其索引作为该DataFrame上的另一列

#输入
mylist = list('abcedfghijklmnopqrstuvwxyz')
myarr = np.arange(26)
mydict = dict(zip(mylist, myarr))
ser = pd.Series(mydict)
print(ser)

a     0
b     1
c     2
e     3
d     4
f     5
g     6
h     7
i     8
j     9
k    10
l    11
m    12
n    13
o    14
p    15
q    16
r    17
s    18
t    19
u    20
v    21
w    22
x    23
y    24
z    25
dtype: int64

# solution 1 using DataFrame
ser_df = pd.DataFrame(ser)
ser_df.reset_index()

# using pandas to_frame()
ser_df = ser.to_frame().reset_index()
ser_df

	index	0
0	a	0
1	b	1
2	c	2
3	e	3
4	d	4
5	f	5
6	g	6
7	h	7
8	i	8
9	j	9
10	k	10
11	l	11
12	m	12
13	n	13
14	o	14
15	p	15
16	q	16
17	r	17
18	s	18
19	t	19
20	u	20
21	v	21
22	w	22
23	x	23
24	y	24
25	z	25

4. 合并ser1和ser2形成一个DataFrame

#输入
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

# using pandas DataFrame
ser_df = pd.DataFrame(ser1, ser2).reset_index()
ser_df.head()
# using pandas DataFrame with a dictionary, gives a specific name to the column
ser_df = pd.DataFrame({"col1":ser1, "col2":ser2})
ser_df.head()
# using pandas concat
ser_df = pd.concat([ser1, ser2], axis = 1)
ser_df

	0	1
0	a	0
1	b	1
2	c	2
3	e	3
4	d	4
5	f	5
6	g	6
7	h	7
8	i	8
9	j	9
10	k	10
11	l	11
12	m	12
13	n	13
14	o	14
15	p	15
16	q	16
17	r	17
18	s	18
19	t	19
20	u	20
21	v	21
22	w	22
23	x	23
24	y	24
25	z	25

5. 计算ser的最小值、第25%位数、中位数、第75%位数和最大值

#输入
state = np.random.RandomState(100)
ser = pd.Series(state.normal(10, 5, 25))
print(ser)

0      1.251173
1     11.713402
2     15.765179
3      8.737820
4     14.906604
5     12.571094
6     11.105898
7      4.649783
8      9.052521
9     11.275007
10     7.709865
11    12.175817
12     7.082025
13    14.084235
14    13.363604
15     9.477944
16     7.343598
17    15.148663
18     7.809322
19     4.408409
20    18.094908
21    17.708026
22     8.740604
23     5.787821
24    10.922593
dtype: float64

# using pandas
ser.describe()

# or using numpy
np.percentile(ser, q = [0, 25, 50, 75, 100])

array([ 1.25117263,  7.70986507, 10.92259345, 13.36360403, 18.0949083 ])

6. 计算两个序列的欧氏距离

#输入
p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
'''
应该输出

18.165
'''

'\n应该输出\n\n18.165\n'

# using list comprehension
suma = np.sqrt(np.sum([(p - q)**2 for p, q in zip(p, q)]))
suma

# using series one to one operation
sum((p - q)**2)**.5

# using numpy
np.linalg.norm(p-q)

18.16590212458495

7. 从df1中删除df2中存在的行。所有三列必须相同。

# 输入
df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['high', 'medium', 'low'] * 3,
                    'price': np.random.randint(0, 10, 9)})

df2 = pd.DataFrame({'pazham': ['apple', 'orange', 'pine'] * 2,
                    'kilo': ['high', 'low'] * 3,
                    'price': np.random.randint(0, 10, 6)})

df1
# df2

	fruit	weight	price
0	apple	high	9
1	banana	medium	8
2	orange	low	6
3	apple	high	3
4	banana	medium	6
5	orange	low	9
6	apple	high	1
7	banana	medium	9
8	orange	low	2

df2 = df2.rename(columns = {'pazham':'fruit','kilo':'weight','price':'price'}) # 为每个 index 单独修改名称
df1 = df1.append(df2)
df1 = df1.append(df2)
print("补集(从df1中过滤df1在df2中存在的行):\n%s\n\n" % df1.drop_duplicates(subset=['fruit', 'weight', 'price'],keep=False))
# sf2
参考:
https://blog.csdn.net/missyougoon/article/details/83780845
https://blog.csdn.net/qq_41551450/article/details/104946765
https://blog.csdn.net/qq_28388339/article/details/109075837

  File "<ipython-input-16-3af8dc2e967c>", line 6
    参考:
       ^
SyntaxError: invalid syntax

8. 绘制df1每一列的直方图。

# 输入
df1 = pd.DataFrame(np.random.randn(100,3), columns=["col1", "col2", "col3"])

df1

	col1	col2	col3
0	1.581114	-2.328462	1.763890
1	0.033315	0.639258	0.458925
2	0.955110	-0.071683	-0.803130
3	0.443900	-1.094748	-0.710245
4	0.424098	0.349480	-2.828947
...	...	...	...
95	0.833453	0.614418	-1.088890
96	-0.510392	-0.753190	0.169979
97	1.668512	-0.441556	-1.673732
98	0.730275	0.309522	0.668297
99	0.051071	0.088964	0.206193

100 rows × 3 columns

df1.plot.bar()

在这里插入图片描述

9. 将序列ser中低于5%和大于95%的所有值替换为各自的第5%和95%值。

#输入
# input
ser = pd.Series(np.logspace(-2, 2, 30))
ser

ser = ser.to_frame()

# ser.ix[ser['0']<=np.percentile(ser,5),'0']=np.percentile(ser,5)
# ser.ix[ser[0]>=np.percentile(ser,95),0]=np.percentile(ser,95)

# df.sex[df['sex']=='m']=1
# ser.'0'[ser[0]<=np.percentile(ser,5)]=np.percentile(ser,5)

# df.loc[(df['First Season'] > 1990)] = 1
ser.loc[(ser[0]<=np.percentile(ser,5))] = np.percentile(ser,5)
ser.loc[(ser[0]>=np.percentile(ser,95))] = np.percentile(ser,95)

ser
# 参考:
# http://www.cocoachina.com/cms/wap.php?action=article&id=53695
# https://blog.csdn.net/brucewong0516/article/details/80205422
# https://blog.csdn.net/weixin_41100555/article/details/88555658
# https://blog.csdn.net/weixin_37536446/article/details/81266273

	0
0	0.016049
1	0.016049
2	0.018874
3	0.025929
4	0.035622
5	0.048939
6	0.067234
7	0.092367
8	0.126896
9	0.174333
10	0.239503
11	0.329034
12	0.452035
13	0.621017
14	0.853168
15	1.172102
16	1.610262
17	2.212216
18	3.039195
19	4.175319
20	5.736153
21	7.880463
22	10.826367
23	14.873521
24	20.433597
25	28.072162
26	38.566204
27	52.983169
28	63.876672
29	63.876672

10. 从文件list.xlsx读取数据，统计每个学校的人数。

# -*- coding:utf-8 -*-
import pandas as pd

# 从文件list.xlsx读取数据，统计每个学校的人数

df = pd.read_excel('list.xlsx')  # 这个会直接默认读取到这个Excel的第一个表单
# data=df.head()#默认读取前5行的数据 在()里可以加数字表示多少行

# data=df.iloc[0:].values#0表示第一行 这里读取数据并不包含表头，要注意哦！
# print("读取指定行的数据：\n{0}".format(data))

data = df.iloc[:, 4].values
# print("读取指定列的数据：\n{0}".format(data))

setAll = set()
for i in data:
    setAll.add(i)

dict = {}

for i in setAll:
    dict[i] = 0

for i in data:
    dict[i] += 1

for i in dict.items():
    print(i)

# ix报错参考:https://blog.csdn.net/Jinnnnnny/article/details/106670768

(‘北京师范大学珠海分校’, 80)
('北京理工大学珠海学院 ', 1)
(‘广东邮电职业技术学院’, 1)
(‘闽南师范大学’, 1)
(‘广州南洋理工职业学院’, 1)
(‘暨南大学’, 5)
(‘深圳信息职业技术学院’, 1)
(‘广东东软学院’, 20)
(‘广东科技学院’, 15)
(‘顺德职业技术学院’, 1)
(‘广东白云学院’, 3)
(‘广东财经大学’, 5)
(‘珠海市第八中学’, 1)
(‘南洋理工职业学院’, 1)
(‘广州工商学院’, 1)
(‘哈尔滨工业大学(深圳)’, 11)
(‘广东海洋大学’, 1)
(‘澳門培正中學’, 4)
(‘广州市第六中学’, 1)
(‘仲恺农业工程学院’, 3)
(‘深圳市第三职业技术学校’, 3)
(‘江门职业技术学院’, 3)
(‘鲁东大学’, 24)
(‘中山大学新华学院’, 21)
(‘广州城建职业学院’, 2)
(‘广州大学’, 4)
(‘广东省创新科技职业技术学院’, 1)
(‘南方科技大学’, 18)
(‘五邑大学’, 5)
(‘韶关学院’, 24)
(‘阳江职业技术学院’, 4)
(‘华南理工大学’, 55)
(‘广东工业大学’, 42)
(‘北京理工大学珠海学院’, 28)
(‘中山大学’, 5)
(‘深圳大学’, 2)
(‘澳门大学’, 2)
(‘广州番禺职业技术学院’, 8)
(‘广州科技职业技术大学’, 4)
(‘岭南师范学院’, 5)
(‘广东创新科技职业学院’, 7)
(‘广东培正学院’, 22)
(‘华南理工大学广州学院’, 17)
(‘广州大学华软软件学院’, 14)
(‘华南农业大学’, 11)
(‘东莞理工学院’, 19)
(‘广州大学松田学院’, 3)
(‘广东第二师范学院’, 5)
(‘广东生态工程职业学院’, 1)
(‘佛山科学技术学院’, 2)
(‘深圳职业技术学院’, 3)
(‘澳门城市大学’, 3)
(‘肇庆学院’, 23)
(‘长安大学’, 1)
(‘无单位’, 1)
(‘吉林大学珠海学院’, 22)
(‘广州铁一中学’, 2)
(‘嘉应学院’, 39)
(‘广东金融学院’, 8)
(‘广东工业大学华立学院’, 2)
(‘广东科贸职业学院’, 2)
(‘汕头大学’, 1)
(‘澳门科技大学’, 6)
(‘浙江传媒学院’, 1)
(‘广东工贸职业技术学院’, 3)
(‘广东科学技术职业学院’, 29)
(‘广州商学院’, 11)
(‘广东石油化工学院’, 2)
(‘中山大学南方学院’, 3)
(‘广东岭南职业技术学院’, 4)
(‘广东农工商职业技术学院’, 1)
(‘广东工商职业技术大学’, 1)
(‘韩山师范学院’, 1)
(‘广州市铁一中学’, 18)
(‘华南师范大学’, 103)
(‘北京师范大学珠海校区’, 20)
(‘电子科技大学中山学院’, 1)
(‘广州市水荫路小学’, 1)
(‘黑龙江大学’, 1)
(‘广东财经大学华商学院’, 7)
(‘广东技术师范大学’, 10)
(‘广东省科学职业技术学院’, 1)
(‘深圳中学’, 1)
(‘广东工程职业技术学院’, 1)
(‘河源职业技术学院’, 9)
(‘广东外语外贸大学南国商学院’, 6)

霜序0.2℃

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Pandas 简单例子

Pandas作业import pandas as pdimport numpy as npprint(pd.__version__)1.1.31. 创建一个如下所示的DataFrame`AppleBanana2017 Sale35212018 Sale41342. 从list，dict，numpy array 创建Series#输入import numpy as npa_list = list("abcdefg")numpy_array =
复制链接

扫一扫