sklearn常用操作,分享给大家

qq_34799796

已于 2024-07-26 17:17:10 修改

阅读量75

点赞数 1

文章标签： sklearn 人工智能算法

于 2024-07-26 17:03:20 首次发布

本文链接：https://blog.csdn.net/qq_34799796/article/details/140716616

版权

import pandas as pd

#数据加载
df = pd.read_excel("./111.xls")
print(df.head())
#删除重复数据
df = df.drop_duplicates(subset=['编号'])
df.to_csv("test.csv",index=False)
#删除为null的数据
df = df.dropna(subset=['名称'])
df.to_csv("test1.csv",index=False)
#缺失值补全

1.sklearn数据读取

2.切分数据集

import pandas as pd
from sklearn.model_selection import train_test_split

# 读取CSV文件
data = pd.read_csv('your_dataset.csv')

# 假设最后一列是标签
X = data.iloc[:, :-1]  # 特征
y = data.iloc[:, -1]   # 标签

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 接下来，你可以使用X_train, y_train, X_test, y_test来训练和测试你的模型
#训练测试集数据的分布
for name,array in zip(['target','y_train','y_test'],[target,y_train,y_test]):
    print()
    print(name)
    print(pd.Series(array).value_counts(normalize=True))

3.数据标注化

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[ 1.,-1.,2.],[ 2.,0.,0.],[ 0.,1.,-1.]])
scaler=StandardScaler().fit(X)     #声明类，并用fit()方法计算后续标准化的mean与std
print('\n均值：',scaler.mean_)    #类属性：均值
print('方差：',scaler.var_)     #类属性：方差
X_scale=scaler.transform(X)     #转换X
print('\n标准化数据:\n',X_scale)
y=np.array([[1.,1.,1.],[2.,2.,2.]])
y_scale=scaler.transform(y)     #测试集标准化
print('\n测试集标准化数据:\n',y_scale)
X_scale2=scaler.fit_transform(X)     #直接计算并标准化的方法
print('\n原始数据直接标准化：\n',X_scale2)