Python - 对数据集(.csv文件或.excel文件)的基本处理
载入数据
读取文件
通过pandas库载入读取csv或excel文件。
import pandas as pd
data = pd.read_csv('数据集的文件路径或者URL',header=None, sep=' ', names=[])
data = pd.read_excel('数据集的文件路径或者URL',header=None, sep=' ', names=[])
'''
header为表头,默认为第0行,header = None 默认没有表头,会自动添加数字作为列数
sep = ' ' 表示数据之间使用空格作为分隔符
names可以作为重新定义列索引的列表,如names=['col1', 'col2']
'''
指定时间索引
通常来说,有时候在创建DataFrame的时候会指定日期作为索引,为此pandas提供了data_range()函数。
data_index = pd.data_range(strat='01/01/2020', end='02/10/2020'. periods=100, freq=None)
'''
param:
start:string或datetime-like,默认值是None,表示日期的起点。
end:string或datetime-like,默认值是None,表示日期的终点。
periods:integer或None,默认值是None,表示你要从这个函数产生多少个日期索引值;如果是None的话,那么start和end必须不能为None。
freq:string或DateOffset,默认值是’D’,表示以自然日为单位,这个参数用来指定计时单位,比如’5H’表示每隔5个小时计算一次,'30S'则为30秒一个批次。
如果设置了start和end,则只需要设置periods和frep中的一个就可以,一般只需要设置其中三个参数
更多参数自行搜索
'''
查看数据
显示数据集
data # 显示数据集
data.sample(int n) # 随机显示 n 条数据, 默认n = 1
data.head(int n) # 从头显示 n 条数据, 默认n = 5
data.tail(int n) # 倒数显示 n 条数据, 默认n = 5
查看列数据
col_1 = data["class"] # 获取一列数据
col_12 = data[["sepallength","class"]] # 获取两列及以上数据集,**需要使用二维数据**
查看索引值
data.index # 显示行索引
data.columns # 显示列索引
操作修改
特征编码
1. 标签映射
'''这里假设data['class']为鸢尾花的种类,即将Iris-setosa映射为0, Iris-virginica映射为1, Iris-versicolor映射为2,方便统计'''
'''方法1'''
data["class"] = data["class"].map({
"Iris-setosa" : 0,"Iris-virginica" : 1,"Iris-versicolor" : 2})
'''方法2'''
scale_mapper = {
"Iris-setosa" : 0