Pandas 的DataFrame基本操作

Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用:创建DataFrame. DataFrame是一张二维的表,大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 首要的任务就是创建一个DataFrame,它有几种创建方式:

  • 列表,序列(pandas.Series), numpy.ndarray的字典
  • 二维numpy.ndarray
  • 别的DataFrame
  • 结构化的记录(structured arrays)

# 获得行索引信息
df.index
# 获得列索引信息
df.columns
# 获得df的size
df.shape
# 获得df的行数
df.shape[0]
# 获得df的 列数
df.shape[1]
# 获得df中的值
df.values

Pandas所支持的数据类型:
1. float
2. int
3. bool
4. datetime64[ns]
5. datetime64[ns, tz]
6. timedelta[ns]
7. category
8. object
默认的数据类型是int64,float64.

查看数据类型

  1. df.dtypes
  2. series.dtype
  3. get_dtype_counts()
    如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型.
    不同的数据类型也会被当成object,比如int32,float32

3. 调整index为从1开始

>>> df.index = range(1,len(df) + 1) # 将index改成从1开始
>>> df
   user_id   book_id rating   mark_date
1  webbang   3713327      4  2017-03-07
2  webbang   4074636      4  2017-03-07
3  webbang  26873486      4  2017-03-07

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pandas DataFrame 是 Python 中使用最广泛的数据结构之一,它采用表格的形式存储数据,类似于 Excel 中的表格。DataFrame 可以进行多种操作,如数据整理、切片、查询、聚合等。 1. 创建 DataFrame 可以通过 pandas.read_csv(),pandas.read_excel() 等方法导入已有数据文件,也可以手动创建。使用 pandas.DataFrame() 方法,将数据数组传递给 DataFrame 的构造函数即可创建 DataFrame。例如,以下创建一个有两个列的 DataFrame: ```python import pandas as pd data = {'name': ['Tom', 'Jerry'], 'age': [25, 30]} df = pd.DataFrame(data) ``` 2. 基本信息查看 使用 df.head() 和 df.tail() 方法可以查看 DataFrame 的头几行或尾几行数据,默认显示前五行或后五行。 使用 df.shape 可以查看行列数。 使用 df.info() 可以查看每一列的名字、数据类型和缺失值数量。 3. 数据选择与切片 可以使用 df.loc[] 和 df.iloc[] 方法选择行和列。 df.loc[] 通过标签选择数据,可以选择一行或多行数据。例如,选取第一行数据: ```python df.loc[0] ``` df.iloc[] 通过位置选择数据,也可以选择一行或多行。例如,选取第一行数据: ```python df.iloc[0] ``` 可以通过 df["column_name"] 选取列。例如,以下选取列 name: ```python df["name"] ``` 4. 数据过滤与查询 可以通过布尔索引过滤数据。例如,以下选取 age 大于 25 的行: ```python df[df["age"] > 25] ``` 可以使用 df.query() 方法查询数据。例如,以下查询名字为 Tom 的行: ```python df.query("name == 'Tom'") ``` 5. 数据处理与聚合 可以使用 df.apply() 方法处理数据。例如,以下将 age 列中的数据加 10: ```python df["age"] = df["age"].apply(lambda x: x + 10) ``` 可以使用 df.groupby() 方法进行数据聚合。例如,以下对 age 列进行平均数聚合: ```python df.groupby("age")["age"].mean() ``` 以上是 Pandas DataFrame基本操作,包括创建 DataFrame、基本信息查看、数据选择与切片、数据过滤与查询、数据处理与聚合等。通过这些方法可以轻松地对 DataFrame 进行操作,方便地进行数据分析和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值