sklearn常用操作,分享给大家

import pandas as pd

#数据加载
df = pd.read_excel("./111.xls")
print(df.head())
#删除重复数据
df = df.drop_duplicates(subset=['编号'])
df.to_csv("test.csv",index=False)
#删除为null的数据
df = df.dropna(subset=['名称'])
df.to_csv("test1.csv",index=False)
#缺失值补全

1.sklearn数据读取

2.切分数据集

import pandas as pd
from sklearn.model_selection import train_test_split

# 读取CSV文件
data = pd.read_csv('your_dataset.csv')

# 假设最后一列是标签
X = data.iloc[:, :-1]  # 特征
y = data.iloc[:, -1]   # 标签

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 接下来,你可以使用X_train, y_train, X_test, y_test来训练和测试你的模型
#训练测试集数据的分布
for name,array in zip(['target','y_train','y_test'],[target,y_train,y_test]):
    print()
    print(name)
    print(pd.Series(array).value_counts(normalize=True))
3.数据标注化
from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[ 1.,-1.,2.],[ 2.,0.,0.],[ 0.,1.,-1.]])
scaler=StandardScaler().fit(X)     #声明类,并用fit()方法计算后续标准化的mean与std
print('\n均值:',scaler.mean_)    #类属性:均值
print('方差:',scaler.var_)     #类属性:方差
X_scale=scaler.transform(X)     #转换X
print('\n标准化数据:\n',X_scale)
y=np.array([[1.,1.,1.],[2.,2.,2.]])
y_scale=scaler.transform(y)     #测试集标准化
print('\n测试集标准化数据:\n',y_scale)
X_scale2=scaler.fit_transform(X)     #直接计算并标准化的方法
print('\n原始数据直接标准化:\n',X_scale2)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值