Pandas的数据处理

最新推荐文章于 2024-07-25 16:05:31 发布

暴躁的秋秋

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量1k

点赞数 30

文章标签：机器学习开发语言

本文链接：https://blog.csdn.net/m0_67431719/article/details/135837348

版权

Task1 Pandas基础操作

In [1]:
#导包
import pandas as pd
import numpy as np
1. 创建DataFrame

In [2]:
data = {"grammer":['Python', 'C', 'Java', 'R', 'SQL', 'PHP', 'Python', 'Java', 'C', 'Python'],
       "score":[6, 2, 6, 4, 2, 5, 8, 10, 3, 4], 
       "cycle":[4, 2, 6, 2, 1, 2, 2, 3, 3, 6]}
df = pd.DataFrame(data)
df
Out[2]:

grammer score cycle
0 Python 6 4
1 C 2 2
2 Java 6 6
3 R 4 2
4 SQL 2 1
5 PHP 5 2
6 Python 8 2
7 Java 10 3
8 C 3 3
9 Python 4 6

2. 查看前5行数据

In [3]:
df.head() # 默认为5
Out[3]:

grammer score cycle
0 Python 6 4
1 C 2 2
2 Java 6 6
3 R 4 2
4 SQL 2 1

3. 查看后5行数据

注：这里只给出一种方法，小作业需要在想一种方法哦！

In [55]:
# 法一：
df.tail(5) # 不填的话默认为5
Out[55]:

grammer score cycle len_str
5 PHP 5 2 3
6 Python 8 2 6
7 Java 10 3 4
8 C 3 3 1
9 Python 4 6 6

4. 查看所有列名

In [40]:
df.columns
Out[40]:
Index(['grammer', 'score', 'cycle'], dtype='object')
5. 查看数据框行列数

In [41]:
df.shape
Out[41]:
(10, 3)
6. 查看行数

In [42]:
# 方法一：
df.shape[0]
# 方法二:
len(df)
Out[42]:
10
7. 查看列数

注：这里只给出一种方法，小作业需要在想两种方法哦！

In [56]:
#方法一：
df.shape[1]
Out[56]:
4
8. 查看索引、数据类型和内存信息

In [44]:
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   grammer  10 non-null     object
 1   score    10 non-null     int64 
 2   cycle    10 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 368.0+ bytes
9. 查看索引

In [45]:
df.index
Out[45]:
RangeIndex(start=0, stop=10, step=1)
10. 查看数值型列的汇总统计

In [46]:
df.describe()
Out[46]:

score cycle
count 10.000000 10.00000
mean 5.000000 3.10000
std 2.581989 1.72884
min 2.000000 1.00000
25% 3.250000 2.00000
50% 4.500000 2.50000
75% 6.000000 3.75000
max 10.000000 6.00000

11. 查看每列的数据类型

In [47]:
df.dtypes
Out[47]:
grammer    object
score       int64
cycle       int64
dtype: object
12. 查看某列共有几种元素

In [48]:
#方法一：
len(df['grammer'].unique())
Out[48]:
6
13. 查看Pandas与Numpy版本

In [49]:
np.__version__
pd.__version__
Out[49]:
'1.1.3'
14. 查看某一列各元素出现的次数

In [50]:
df['grammer'].value_counts()
Out[50]:
Python    3
C         2
Java      2
PHP       1
R         1
SQL       1
Name: grammer, dtype: int64
15. 查看某列每个字符串的长度

In [51]:
# 方法一：
df['grammer'].str.len()
Out[51]:
0    6
1    1
2    4
3    1
4    3
5    3
6    6
7    4
8    1
9    6
Name: grammer, dtype: int64
In [53]:
# 方法二：
df['grammer'].map(lambda x: len(x))
Out[53]:
0    6
1    1
2    4
3    1
4    3
5    3
6    6
7    4
8    1
9    6
Name: grammer, dtype: int64
In [ ]:
小作业

16.查看最后5行数据

想想其他方法，不能使用tail()函数！

In [ ]:
17. 查看列数

在想想其他方法可以查看列数的，df.shape[1]上面已经给出了哈！

In [ ]:
18. 查看某列共有几种元素

上面给出了一种方法：len(df['grammer'].unique())，小伙伴再想想其他方法哈！

In [ ]:

	grammer	score	cycle
0	Python	6	4
1	C	2	2
2	Java	6	6
3	R	4	2
4	SQL	2	1
5	PHP	5	2
6	Python	8	2
7	Java	10	3
8	C	3	3
9	Python	4	6

	grammer	score	cycle
0	Python	6	4
1	C	2	2
2	Java	6	6
3	R	4	2
4	SQL	2	1

	grammer	score	cycle	len_str
5	PHP	5	2	3
6	Python	8	2	6
7	Java	10	3	4
8	C	3	3	1
9	Python	4	6	6

	score	cycle
count	10.000000	10.00000
mean	5.000000	3.10000
std	2.581989	1.72884
min	2.000000	1.00000
25%	3.250000	2.00000
50%	4.500000	2.50000
75%	6.000000	3.75000
max	10.000000	6.00000