Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用:创建DataFrame. DataFrame是一张二维的表,大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 首要的任务就是创建一个DataFrame,它有几种创建方式:
- 列表,序列(pandas.Series), numpy.ndarray的字典
- 二维numpy.ndarray
- 别的DataFrame
- 结构化的记录(structured arrays)
# 获得行索引信息
df.index
# 获得列索引信息
df.columns
# 获得df的size
df.shape
# 获得df的行数
df.shape[0]
# 获得df的
列数
df.shape[1]
# 获得df中的值
df.values
Pandas所支持的数据类型:
1. float
2. int
3. bool
4. datetime64[ns]
5. datetime64[ns, tz]
6. timedelta[ns]
7. category
8. object
默认的数据类型是int64,float64.
查看数据类型
- df.dtypes
- series.dtype
- get_dtype_counts()
如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型.
不同的数据类型也会被当成object,比如int32,float32
3. 调整index为从1开始
>>> df.index = range(1,len(df) + 1) # 将index改成从1开始 >>> df user_id book_id rating mark_date 1 webbang 3713327 4 2017-03-07 2 webbang 4074636 4 2017-03-07 3 webbang 26873486 4 2017-03-07