机器学习 - 数据集（.csv文件或.excel文件）的基本处理

最新推荐文章于 2024-09-11 21:53:24 发布

置顶

GQ177

最新推荐文章于 2024-09-11 21:53:24 发布

阅读量1.6w

点赞数 27

分类专栏：求学之路 - 机器学习求学之路 - Python 文章标签： python 机器学习

本文链接：https://blog.csdn.net/seek0226/article/details/106958208

版权

本文详细介绍了在Python中使用pandas处理机器学习数据集的基本步骤，包括读取.csv或.excel文件，设置时间索引，查看数据集、列数据和索引值，进行特征编码（如标签映射、one-hot编码、字典编码），数据统计，检测和删除重复值，异常值处理，缺失值处理以及合并数据帧的操作。文中提到了多种处理方法，如使用LabelBinarizer进行one-hot编码，通过groupby和resample进行数据统计，以及利用KNN分类器预测缺失值等。

摘要由CSDN通过智能技术生成

Python - 对数据集（.csv文件或.excel文件）的基本处理

载入数据

读取文件

通过pandas库载入读取csv或excel文件。

import pandas as pd
data = pd.read_csv('数据集的文件路径或者URL'，header=None, sep=' ', names=[])
data = pd.read_excel('数据集的文件路径或者URL'，header=None, sep=' ', names=[])
'''
header为表头，默认为第0行，header = None 默认没有表头，会自动添加数字作为列数
sep = ' ' 表示数据之间使用空格作为分隔符
names可以作为重新定义列索引的列表，如names=['col1', 'col2']
'''

指定时间索引

通常来说，有时候在创建DataFrame的时候会指定日期作为索引，为此pandas提供了data_range()函数。

data_index = pd.data_range(strat='01/01/2020', end='02/10/2020'. periods=100, freq=None)
''' 
param:
start：string或datetime-like，默认值是None，表示日期的起点。

end：string或datetime-like，默认值是None，表示日期的终点。

periods：integer或None，默认值是None，表示你要从这个函数产生多少个日期索引值；如果是None的话，那么start和end必须不能为None。

freq：string或DateOffset，默认值是’D’，表示以自然日为单位，这个参数用来指定计时单位，比如’5H’表示每隔5个小时计算一次,'30S'则为30秒一个批次。

如果设置了start和end，则只需要设置periods和frep中的一个就可以，一般只需要设置其中三个参数

更多参数自行搜索
'''

查看数据

显示数据集

data			   # 显示数据集
data.sample(int n) # 随机显示 n 条数据， 默认n = 1
data.head(int n)   # 从头显示 n 条数据， 默认n = 5
data.tail(int n)   # 倒数显示 n 条数据， 默认n = 5

查看列数据

col_1 = data["class"]  # 获取一列数据
col_12 = data[["sepallength","class"]]  # 获取两列及以上数据集，**需要使用二维数据**

查看索引值

data.index		# 显示行索引
data.columns	# 显示列索引

操作修改

特征编码

1. 标签映射

'''这里假设data['class']为鸢尾花的种类,即将Iris-setosa映射为0， Iris-virginica映射为1， Iris-versicolor映射为2，方便统计'''
'''方法1'''
data["class"] = data["class"].map({
   "Iris-setosa" : 0,"Iris-virginica" : 1,"Iris-versicolor" : 2})
'''方法2'''
scale_mapper = {
   "Iris-setosa" : 0