作者 | Harshdeep Singh
来源 | Medium
编辑 | 代码医生团队
在本文中,将解释如何使用Python中的TensorFlow库执行分类。将与加州人口普查数据合作,并尝试使用个人的各种功能来预测所属的收入类别(> 50k或<= 50k)。可以在TensorFlow存储库中的GitHub配置文件中访问数据。这是访问数据的链接。代码和Jupyter笔记本可以在下面访问:
https://github.com/HarshSingh16/Tensorflow
https://github.com/HarshSingh16/Tensorflow/blob/master/Classification_Tensorflow.ipynb
导入库和数据集
首先将必要的库和数据集导入Jupyter Notebook。
看看数据集有15列。在这15个中,6列本质上是数字的,而其余9列是分类的。下图提供了有关列类型和相应描述的信息。请注意,在此示例中不会使用变量“fnlwgt”。
查看目标列:
现在来看看目标栏“收入”。如前所述,正在尝试对个人的收入等级进行分类。因此基本上有两个类 - “≤50K”和“> 50K。
但是不能将目标标签保留为当前字符串格式。这是因为TensorFlow不将字符串理解为标签。必须将这些字符串转换为0和1.如果收入括号大于50K,则为“1”;如果收入括号小于或等于50K,则为“0”。可以通过创建for循环,然后将标签附加到列表来实现。还使用刚刚创建的新列表直接更新了现有的“收入”列。以下是执行转换的代码: