基于pytorch的logistic回归二元分类（使用UCI成年人收入数据集）

但守恒

于 2019-12-13 14:31:53 发布

阅读量2.2k

点赞数 4

分类专栏：搞机

本文链接：https://blog.csdn.net/weixin_42687826/article/details/103434799

版权

这篇博客介绍了如何使用PyTorch进行Logistic回归二元分类，具体应用在UCI成年人收入数据集上。首先，博主展示了数据预处理的步骤，包括将非数值字符串转换为数值类型。接着，详细描述了数据的归一化处理和随机打乱顺序，以及训练集和测试集的划分。最后，博主搭建了一个简单的线性网络模型，并分享了训练过程及达到0.82准确率的结果。源代码可在提供的GitHub链接中找到。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学了几天深度学习，于是做了一个小demo来实践了一下，基于UCI的收入数据集进行训练，输入个人的信息来预测其收入是否>50K美金。数据格式如下：
Example：
input:25, Private, 226802, 11th, 7, Never-married, Machine-op-inspct, Own-child, Black, Male, 0, 0, 40, United-States
output:<=50K.

数据预处理

由于数据中含有字符串，不方便训练，需要先对数据进行预处理转换成数值类型，首先遍历每一个非int型的列，将每个字符串加入一个set，之后将所有的字符串对应上不同数值，放入一个dict。
然后将data中所有的字符串换成对应的数值，处理程序如下：

data = pd.read_csv('../data/adult.data', header=None)

row = data[0:1]
d = {
   }
for index in row:
    temp = row[index]
    if temp.dtype != int:
        keys = list(set(data[index]))
        values = range(len(keys))
        d.update(dict(zip(keys, values)))
        # print(dict(zip(keys, values)))
        # for index_col in data[index].keys():
        #     data.loc[index_col, index] = d[data[index][index_col]]

data = data.applymap(lambda x: d[x] if type(x) != int else x)
data.to_csv('../data/PreProcess_adult.data', header=None, index=None)
d.update(

最低0.47元/天解锁文章