【Pandas】驯化-01
一文介绍 Pandas中的Dataframe和Series 区别
本次修炼方法请往下查看
🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注: 微信公众号 发送 pandas 即可获取
🎇 相关内容视频**讲解 B站
🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。
🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。
下滑查看解决方法
🎯 一、Pandas 是什么?
Pandas是小量数据分析的大杀器,在目前国内数据挖掘比赛、工作、金融量化中常用工具, 常用来处理类似execl中的结构化数据,和Python语言以及其他可视化的工具包结合使得其在数据分析、数据挖掘、算法分析领域大放异彩。
如果想要从事数据分析以及算法等相关的工作,Pandas是一个必不可少的工作,本来带大家来认识Pandas中数据格式daframe
和series
的使用和区别。
💡 二、Pandas中Series
在pandas中,Series是一种一维的数据结构,类似于数组或列表。它由两部分组成:数据的序列和相应的索引。可以使用pandas中的pd.Series()函数来创建一个Series对象。其中,数据可以是Python列表、NumPy数组或标量。索引可以是默认的整数索引,也可以是自定义的标签索引。
Series
对象的特点之一是它的元素是有序排列的,并且每个元素都有相应的索引。这使得对数据的访问和处理更加方便。。以下是一个基本的使用示例:
import pandas as pd
# 创建一个Series对象,可以通过列表,字典,数组都行
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
series = pd.Series(data, index)
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
series = pd.Series(data, index)
print(series)
print(series)
print(output.shape) # 应该输出 (10, 32, 512),与query的shape一致
A 10
B 20
C 30
D 40
E 50
dtype: int64
# 查询相关原始的方法
series[0] # 通过整数索引访问第一个元素
series['a'] # 通过标签索引访问键为'a'的元素
series[1:3] # 获取索引为1到2的元素
🔍 三、Pandas中的DataFrame
在pandas中,DataFrame
是一种二维数据结构,类似于关系型数据库中的表格。它由多个Series
对象按列组成,并且每列可以具有不同的数据类型。
DataFrame可以看作是一个带有行和列索引的二维表格,其中每一行表示数据集中的一条记录,每一列表示一种特征或属性。
可以使用pandas中的pd.DataFrame()函数来创建一个DataFrame对象。可以传入多种类型的数据作为数据源,例如Python列表、NumPy数组、字典或其他DataFrame对象。下面是一个创建DataFrame对象的示例代码:
import pandas as pd
# 创建一个DataFrame对象
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Chengdu']}
df = pd.DataFrame(data)
print(df)
Name Age City
0 Alice 25 Beijing
1 Bob 30 Shanghai
2 Charlie 35 Guangzhou
3 David 40 Chengdu
DataFrame对象将会显示每一列的名称和对应的数据。默认情况下,每一列将使用整数索引,从0开始递增。同时,DataFrame对象也会有一个通用的行索引,从0开始递增。可以通过以下方式来访问和操作DataFrame对象:
- 通过列名访问列数据:df[‘Name’]将返回’Name’列的数据;
- 通过位置索引访问行数据:df.iloc[0]将返回第一行的数据;
- 使用切片操作获取子集:df.iloc[1:3]将返回索引为1到2的行数据;
- 使用布尔条件筛选行数据:df[df[‘Age’] > 30]将返回年龄大于30的行数据;
- 使用函数操作列数据:df[‘Age’].apply(func)将对’Age’列的每个元素应用指定的函数。
- 此外,DataFrame对象还提供了很多其他方法和属性,可以用于对数据进行统计、计算、排序、重塑和处理等操作。
- 总结一下,pandas中的DataFrame是一种强大的数据结构,用于表示和操作二维数据集。它提供了丰富的功能和方法,使得数据的处理和分析更加灵活和高效。
- 通常工作中使用的都是Dataframe类型的数据格式,后续文章将对dataframe的数据格式进行详细的使用以及日常问题分享。
📚 四、总结与展望
- DataFrame: 为多行多列数据
- Series:一列数据,由默认index和values组成
- 针对DataFrame格式的数据,当对其进行操作时,有行和列之分,大部分的函数都有一个参数控制是对行进行操作还是列进行操作:axis