数据读取与处理

老师的心腹大患

已于 2023-07-20 10:43:33 修改

阅读量430

点赞数

文章标签： pandas python 开发语言

于 2022-10-14 16:24:50 首次发布

本文链接：https://blog.csdn.net/qq_44859618/article/details/127316805

版权

使用pandas库
rows行，columns列
有大标题时

#取消第一行表头skiprows=1
LAT_data = pd.read_csv('AIS.2021.12.31.csv',skiprows=1)

没有标题时

#没有表头header=None
LAT_data = pd.read_csv('AIS.2021.12.31.csv',header=None,names=["表","头"])

存储csv

 column = {'原片材质':[], '原片序号':[], '产品id':[], '产品x坐标':[], '产品y坐标':[], '产品x方向长度':[], '产品y方向长度':[]}  # 列表头名称
    df = pd.DataFrame(column)
    df.to_csv('cut_program.csv') #存储csv
LAT_data.to_csv("new.csv",index=False,encoding="utf_8_sig")#index（行标签）和列标签（columns）指左侧编号列，编码改成utf能够显示中文

2、数据集划分
使用sklearn中的model_selection函数，将原数据按比例随机分为训练集数据和测试集数据

import pandas as pd
from sklearn.model_selection import  train_test_split

#读取文件
data = pd.read_csv('AIS.2021.12.31.csv')
X = data[data.columns[0:-1]]#0第一列，-1最后一列
Y = data[data.columns[0]]

X_train,X_test,Y_train,Y_test = train_test_split(X,Y,
                                                 test_size=0.2,random_state=1234
                                                 )#训练和测试的比例为8:2

3、数据集标准化
使用sklearn.preprocessing对数据集进行标准化，保留特征，去异常值

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
# 对特征进行标准化
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

检查数据类型
将 data 作为参数传递到 .dtypes 函数中，返回各列的数据类型：