00准备工作:
素材:一份全国各省市市委书记数据表.xls
(链接: https://pan.baidu.com/s/1gbgvcLbfEMM-9hFCZw1VlQ 密码: p66u)
编程环境:mac + anaconda + jupyter notebook + python3.6
目录:
01 使用pandas提取数据表中的数据进行分析
01 python环境安装
02 pandas操作小试牛刀
先将.xls文件保存为.csv格式,这个格式才能被python调用
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)
主要包含的几个命令
读取csv数据 pd.read_csv("路径",encoding='utf-8')
print(data.head(10))
print(data[10:20])
print(data['某一列列名'])
print(data[["列1","列2","列3"]])
打印所有表头,就是所有列名 print(data.colums.tolist())
打印第四行,print(data.loc[4])
打印表的基础数据 print(data.describe()) 默认打印数值类型的
打印表的字符串类型基础数据 print(data.describe(include=[np.object]))
P.S.
jupyter notebook中,table键可以自动补全
下面直接贴代码了,数量有些多,请细心查看
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv("/Users/limingxuan/Documents/GitHub/py05_DataAnalysisWeizhuanye/数据资料/地市级党委书记数据库(2000-10).csv",encoding = "utf-8")
#打印前10行数据
print(data.head(10))
省级政区代码 省级政区名称 地市级政区代码 地市级政区名称 年份 党委书记姓名 出生年份 出生月份 籍贯省份代码 籍贯省份名称 \
0 130000 河北省 130100 石家庄市 2000 陈来立 NaN NaN NaN NaN
1 130000 河北省 130100 石家庄市 2001 吴振华 NaN NaN NaN NaN
2 130000 河北省 130100 石家庄市 2002 吴振华 NaN NaN NaN NaN
3 130000 河北省 130100 石家庄市 2003 吴振华 NaN NaN NaN NaN
4 130000 河北省 130100 石家庄市 2004 吴振华 NaN NaN NaN NaN
5 130000 河北省 130100 石家庄市 2005 吴振华 NaN NaN NaN NaN
6 130000 河北省 130100 石家庄市 2006 吴振华 NaN NaN NaN NaN
7 130000 河北省 130100 石家庄市 2007 吴显国 NaN NaN NaN NaN
8 130000 河北省 130100 石家庄市 2008 吴显国 NaN NaN NaN NaN
9 130000 河北省 130100 石家庄市 2009 车俊 NaN NaN NaN NaN
... 民族 教育 是否是党校教育(是=1,否=0) 专业:人文 专业:社科 专业:理工 专业:农科 专业:医科 入党年份 工作年份
0 ... NaN 硕士 1.0 NaN NaN NaN NaN NaN NaN NaN