Pandas 的DataFrame基本操作

最新推荐文章于 2024-07-18 23:54:03 发布

心觉潜意识

最新推荐文章于 2024-07-18 23:54:03 发布

阅读量626

点赞数

Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做很多复杂的操作，要写的code也更少。首要的任务就是创建一个DataFrame，它有几种创建方式：

列表，序列(pandas.Series), numpy.ndarray的字典
二维numpy.ndarray
别的DataFrame
结构化的记录(structured arrays)

# 获得行索引信息

df.index

# 获得列索引信息

df.columns

# 获得df的size

df.shape

# 获得df的行数

df.shape[0]

# 获得df的列数

df.shape[1]

# 获得df中的值

df.values

Pandas所支持的数据类型:
1. float
2. int
3. bool
4. datetime64[ns]
5. datetime64[ns, tz]
6. timedelta[ns]
7. category
8. object
默认的数据类型是int64,float64.

查看数据类型

df.dtypes
series.dtype
get_dtype_counts()
如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型.
不同的数据类型也会被当成object,比如int32,float32

3. 调整index为从1开始

>>> df.index = range(1,len(df) + 1) # 将index改成从1开始
>>> df
   user_id   book_id rating   mark_date
1  webbang   3713327      4  2017-03-07
2  webbang   4074636      4  2017-03-07
3  webbang  26873486      4  2017-03-07

心觉潜意识

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas 的DataFrame基本操作

Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，...
复制链接

扫一扫