100天项目 Day1 数据预处理

拿到数据后,正常遇到的问题可能有以下:

  1. 数据中含有空值:需要对空值做处理
  2. 数据有非数值型维度,需要转换为数据维度,且分成多个虚拟字段
  3. 数据值范围太大,可以对数转化等标准化处理

主要代码注释和数据如下:
遇到的问题主要是import sklearn.model_selection 报错,安装了最新版的anaconda后就ok了

import numpy as np
import pandas as pd
data = pd.read_csv(r'd:\Users\lulib\Desktop\data.txt',sep='\t')

X = data.iloc[:,:-1].values ## X的值为数据源
Y = data.iloc[:,-1].values  ## Y 的值为最终的数据标签

## na数据用均值填充
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values="NaN",strategy="mean",axis=0)

## 数据范围转化一致 对数处理 e 为底
imputer = imputer.fit(X[:,1:])
X[:,1:] = imputer.transform(X[:,1:])

## 分类包
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

## 文字描述性字段转换为数值
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

## 将X的文字性描述字段转换为多个虚拟字段,标志为0 1 
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()

labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

## 数据源分为测试数据和训练数据
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)


##特征标准化
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值