IDE(集成开发环境,包含了程序编写过程中用到的所有工具(编辑器、编译器、调试器和图形用户界面等)),IDLE是IDE的一种
Anaconda,是Python的一个开源版本,对刚开始学习Python的很友好。因为Anaconda自带一些常用的Python库,不需要自己再安装。
缩进:把代码的行首空白部分称为缩进,缩进的目的是为了识别代码块,让程序知道该运行哪一部分。行首只要有空格就是缩进,通常都以4个空格作为缩进
导入.xlsx文件,使用Pandas的方法是read_excel()
导入EXCEl表格
>>>import pandas as pd
>>>df=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx") #r为转义符
# df=pd.read_excel("C:/Users/ZOE/Desktop/CBOCOOD地区人数统计.xlsx") #也可以不加r,但是需要将路径前面所有\转换成/
>>>df
#.xlsx格式的文件可以有多个Sheet,可以设定sheet_name参数来指定要导入哪个Sheet(注意字母大小写)
df=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx",sheet_name="Sheet1")
df=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx",sheet_name=0)
#除了指定具体Sheet的名字,还可传入Sheet的顺序,从0开始计数。如果不指定sheet_name参数,默认导入都是第一个Sheet的文件
指定行索引,通过index_col进行设置
df=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx",sheet_name=0,index_col=0)
#表示用第几列做行索引,从0开始计数
指定列索引,通过header进行设置
f=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx",sheet_name=0,header=0)
#表示用第几行做行索引,从0开始计数
指定导入列,通过usecols进行设置
f=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx",sheet_name=0,usecols=0)
#表示用导入哪个列,从0开始计数
f=pd.read_excel(r"C:\Users\ZOE\Desktop\CBOCOOD地区人数统计.xlsx",sheet_name=0,usecols=[0,2])
#表示用导入哪些列,从0开始计数
导入.csv文件
和导入EXCEl类似,但使用的方法是read_csv()
导入.txt文件
和导入EXCEl类似,但使用的方法是read_table()
导入sql文件
Python导入sql文件主要分两步,第一讲Python与数据库进行连接(利用pymysql),第二利用Python执行sql查询语句(利用read_sql()方法)
利用head预览前两行
df.head()#默认展示前5行
利用shape获取数据表的大小
数据表的大小,即数据表有多少行,多少列
df.shape
(行数,列数)
注意:获取行数和列数时不会把行索引和列索引计算在内,而EXCEl是把行索引,列索引计算在内的
**熟悉数据:**1.数据表的大小,即数据有多少行、多少列。2.数据类型,比如数值类型可以求均值,字符串类型就没法求均值3.掌握数值的分布情况,即均值多少,最值多少,方差及分位数多少
利用describe()方法获取所有数值类型字段的分布值
df.describe()
利用info()方法判断缺失值
df.info()
利用isnull()方法判断哪个值是缺失值。如果是则返回True,如果不是则返回False
df.isnull()
利用dropna()删除含有缺失值的行
df.dropna()
给dropna()传入参数how=all,即可删除权威空值的行(空白行),不全为空值的行不会被删除
df.dropna(how=“all”)
利用fillna()对数据表中所有缺失值进行填充。在括号里输入要填充的值即可
df.fillna(0)
也可按不同列进行填充
df.fillna(“性别”:“男”)