数据的读写
用pandas
- CSV格式
df=pd.read_csv('文件路径')
- excel格式
df=pd.read_excel('文件路径')
数据的探索与描述
用pandas读取数据后,都是datafram格式的数据
查看数据的行列数
df.shape
- 查看数据的概况
df.info()
- 对数据进行简单的统计描述
df.describe()
数据简单处理
- 去除数据间的空格
查看是否有空格
df.columns
提取列的名称
col=df.columns.values
列表推导式
df.columns=[x.strip() for x in col]
注:strip只能去除前后空格
- 英文字母大小写的转换
重复值的处理
- 寻找重复值
duplicated()
- 当两条记录中所有的数据都相等时duplicated函数才会判断为重复值
- duplicated支持从前向后(first),和从后向前(last)两种重复值查找模式
- 默认是从前向后进行重复值的查找和判断,也就是后面的条目在重复值判断中显示为True
df.duplicated