pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包
类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下:
import pandas as pd
博客中使用的数据文件在百度网盘
读取csv文件,打印变量类型和数据类型
food_info = pd.read_csv("food_info.csv") # 读入csv数据文件
print(type(food_info)) # 打印变量类型
<class 'pandas.core.frame.DataFrame'>
print food_info.dtypes # 打印数据类型
读取数据前几行数据,获取数据列名,数据形状
print food_info.head() #打印数据的前几行数据
print food_info.head(3) #打印数据的前三行数据
print food_info.columns #打印出数据的列名
Index([u'NDB_No', u'Shrt_Desc', u'Water_(g)', u'Energ_Kcal', u'Protein_(g)',
u'Lipid_Tot_(g)', u'Ash_(g)', u'Carbohydrt_(g)', u'Fiber_TD_(g)',
u'Sugar_Tot_(g)', u'Calcium_(mg)', u'Iron_(mg)', u'Magnesium_(mg)',
u'Phosphorus_(mg)', u'Potassium_(mg)', u'Sodium_(mg)', u'Zinc_(mg)',
u