Python:One-hot-encoding 例子

import pandas as pd
import numpy as np
import os
os.getcwd()
os.chdir("D:\OCdata")
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

data = pd.read_csv("ObesityDataSet_raw_and_data_sinthetic.csv")

# print(data["family_history_with_overweight"].value_counts())

Gender = np.array(pd.get_dummies(data["Gender"]))

print("Gender",Gender.shape)


Age = np.array(data["Age"]).reshape(-1,1)
print("Age",Age.shape)

Height = np.array(data["Height"]).reshape(-1,1)
print("height",Height.shape)

Weight = np.array(data["Weight"]).reshape(-1,1)
print("Weight",Weight.shape)

family = np.array(pd.get_dummies(data["family_history_with_overweight"]))
print("family",family.shape)

FCVC = np.array(data["FCVC"]).reshape(-1,1)
print("FCVC",FCVC.shape)


NCP = np.array(data["NCP"]).reshape(-1,1)
print("NCP",NCP.shape)

CAEC = np.array(pd.get_dummies(data["CAEC"]))
print("CAEC",CAEC.shape)

smoke = np.array(pd.get_dummies(data["SMOKE"]))
print("smoke",smoke.shape)

CH2O = np.array(data["CH2O"]).reshape(-1,1)
print("CH2O",CH2O.shape)

SCC = np.array(pd.get_dummies(data["SCC"]))
print("SCC",SCC.shape)

FAF = np.array(data["FAF"]).reshape(-1,1)
print("FAF ",FAF.shape)

TUE = np.array(data["TUE"]).reshape(-1,1)
print("TUE ",TUE.shape)

CALC = np.array(pd.get_dummies(data["CALC"]))
print("CALC",CALC.shape)

MTRANS = np.array(pd.get_dummies(data["MTRANS"]))
print("MTRANS",MTRANS.shape)


print(data["NObeyesdad"].value_counts())

NObeyesdad = np.array(data["NObeyesdad"])

decision = []
for ele in NObeyesdad:
    if ele == "Insufficient_Weight":
        decision.append(0)
    elif ele == "Normal_Weight":
        decision.append(1)
    elif ele == "Overweight_Level_I":
        decision.append(2)
    elif ele == "Overweight_Level_II":
        decision.append(2)
    elif ele == "Obesity_Type_I":
        decision.append(3)
    elif ele == "Obesity_Type_II":
        decision.append(3)
    elif ele == "Obesity_Type_III":
        decision.append(3)

decision = np.array(decision).reshape(-1,1)
print("decision",decision.shape)

Data = np.concatenate((Gender,Age,Height,Weight,family,FCVC,NCP,CAEC,smoke,CH2O,SCC,FAF,TUE,CALC,MTRANS,decision),axis=1)
print(Data.shape)
Data = pd.DataFrame(Data,index=None)
Data.to_csv(r"D:\OCdata\Obesity.csv",index=None,header=None)



 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
标签数据是指在分类问题中,对于每个样本都有一个对应的类别标签,用于表示该样本属于哪一类别。在MNIST数据集中,每个样本都是一张手写数字图片,标签表示该图片对应的数字类别,取值范围为0-9之间的整数。 独热编码(one-hot encoding)是一种常用的表示标签数据的方式,它将一个类别标签表示为一个向量,向量的长度等于类别的总数,其中仅有一个元素为1,表示该样本属于对应的类别,其他元素为0。例如,对于MNIST数据集中的一个样本,如果它对应的数字是3,则该样本的标签可以表示为一个长度为10的向量,其中第4个元素为1,其他元素均为0。 在使用TensorFlow训练模型时,我们通常需要将标签数据表示为独热编码的形式,并将训练数据随机打乱(shuffle),以增加训练的随机性。可以使用TensorFlow的数据集API中的Dataset.shuffle()方法来实现数据集的随机打乱,同时可以使用Dataset.batch()方法来指定每个batch中样本的数量。 下面是一个例子,展示如何使用TensorFlow的数据集API加载MNIST数据集,并进行数据打乱、批处理、标签独热编码等操作: ```python import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # 加载MNIST数据集 mnist = input_data.read_data_sets('./data', one_hot=True) # 构建数据集对象 dataset = tf.data.Dataset.from_tensor_slices((mnist.train.images, mnist.train.labels)) # 对数据集进行随机打乱和批处理 dataset = dataset.shuffle(buffer_size=10000).batch(batch_size=128) # 构建迭代器对象 iterator = dataset.make_initializable_iterator() # 定义训练数据的占位符 x, y = iterator.get_next() x = tf.reshape(x, [-1, 28, 28, 1]) # 构建卷积神经网络模型 ... # 定义损失函数和优化器 loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=logits)) optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss) # 训练模型 with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for epoch in range(num_epochs): sess.run(iterator.initializer) while True: try: _, loss_val = sess.run([optimizer, loss]) except tf.errors.OutOfRangeError: break print('Epoch %d, loss = %f' % (epoch, loss_val)) ``` 在这个例子中,我们使用tf.data.Dataset.from_tensor_slices()方法将MNIST数据集转换为一个TensorFlow数据集对象,然后使用Dataset.shuffle()方法对数据集进行随机打乱,使用Dataset.batch()方法指定每个batch中样本的数量。接着,我们使用Dataset.make_initializable_iterator()方法创建一个迭代器对象,该迭代器可以迭代整个数据集,并在每个batch中返回一批训练数据。 注意,我们在训练数据的占位符x、y前面添加了一个iterator.get_next()操作,该操作可以从迭代器对象中取出一批训练数据,并将其转换为一个batch的形式。同时,我们还使用了tf.reshape()方法将输入数据x的形状从[N, 784]转换为[N, 28, 28, 1],以便于输入到卷积神经网络中进行处理。 最后,我们定义了损失函数和优化器,并使用tf.Session()启动一个会话,进行模型的训练。在每个epoch中,我们都需要先调用iterator.initializer方法重新初始化迭代器对象,然后在每个batch中运行训练操作optimizer和损失函数loss,并输出当前的损失值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DeniuHe

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值