作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。
数据框在R中是原生的数据结构,而Python中则没有,也就是没有Pandas就没有dataframe的一种状况。下面我们来用Jupyter Notebook Viewer中提供的代码来查看pandas中数据框的特性,代码如下:
>>> import pandas as pd
>>> import numpy as np
>>>
>>> # (a)创建一个DataFrame
>>> df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
... index=list('一二三四五'))
>>> df
col1 col2 col3
一 a 5 1.3
二 b 6 2.5
三 c 7 3.6
四 d 8 4.6
五 e 9 5.8
>>>
>>> # (b)从DataFrame取出一列为Series
>>> df['col1']
一 a
二 b
三 c
四 d
五 e
Name: col1, dtype: object
>>> type(df)
<class 'pandas.core.frame.DataFrame'>
>>> type(df['col1'])
<class 'pandas.core.series.Series'>
>>>
>>> # (c)修改行或列名
>>> df.rename(index={'一':'one'},columns={'col1':'new_col1'})
new_col1 col2 col3
one a 5 1.3
二 b 6 2.5
三 c 7