TensorFlow(2.x)对结构化数据进行分类

最新推荐文章于 2024-07-25 10:08:39 发布

SamSha1971

最新推荐文章于 2024-07-25 10:08:39 发布

阅读量619

点赞数

分类专栏： python 文章标签： tensorflow 机器学习深度学习

本文链接：https://blog.csdn.net/SamSha1971/article/details/111633025

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

TensorFlow(2.x)对结构化数据进行分类

参考文档

在参考文档https://tensorflow.google.cn/tutorials/structured_data/feature_columns的基础上，增加了分类模式。

使用说明

$ python bx.py --help
usage: bx.py [-h] [-t] [-c]
optional arguments:
  -h, --help        show this help message and exit
  -t, --train       train 带参数进行训练，不带参数进行推理
  -c, --categories  categories 带参数是分类模式，不带参数是不分类模式

Examples：
$ python bx.py -t -c	分类训练
$ python bx.py -c		分类推理
$ python bx.py -t		不分类训练
$ python bx.py			不分类推理

数据说明

样本数据各列的名称和所代表的含义成表如下：

列	描述	特征类型	数据类型
Age	年龄以年为单位	Numerical	integer
~~Sex~~	~~（1 = 男；0 = 女）~~	~~Categorical~~	~~integer~~
CP	~~胸痛类型（0，1，2，3，4）~~	~~Categorical~~	~~integer~~
Trestbpd	静息血压（入院时，以mm Hg计）	Numerical	integer
Chol	血清胆固醇（mg/dl）	Numerical	integer
~~FBS~~	~~（空腹血糖> 120 mg/dl）（1 = true；0 = false）~~	~~Categorical~~	~~integer~~
~~RestECG~~	~~静息心电图结果（0，1，2）~~	~~Categorical~~	~~integer~~
Thalach	达到的最大心率	Numerical	integer
~~Exang~~	~~运动诱发心绞痛（1 =是；0 =否）~~	~~Categorical~~	~~integer~~
Oldpeak	与休息时相比由运动引起的 ST 节段下降	Numerical	integer
Slope	在运动高峰 ST 段的斜率	Numerical	float
CA	荧光透视法染色的大血管动脉（0-3）的数量	Numerical	integer
Thal	地中海贫血：3 =正常；6 =固定缺陷；7 =可逆缺陷	Categorical	string
Target	心脏病诊断（1 = true；0 = false）	Classification	integer

源码

#!/usr/bin/env python3
from __future__ import absolute_import, division, print_function

import os
import argparse
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow import feature_column
from tensorflow.keras import layers
from sklearn.model_selection import train_test_split

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

# 一种从 Pandas Dataframe 创建 tf.data 数据集的实用程序方法（utility method）
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
    dataframe = dataframe.copy()
    # target字段是确诊是否罹患心脏病的数据，取出来作为标注数据
    labels = dataframe.pop('target')
    # 使用分类，生成Dataset
    if args.categories :      
      labels = tf.keras.utils.to_categorical(labels)
    ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))    
    if shuffle:
        ds = ds.shuffle(buffer_size=len(dataframe))
    ds = ds.batch(batch_size)
    return ds


# 训练函数
def bx_train():
  # 训练、验证、测试三个数据集都转换成Dataset类型
  train_ds = df_to_dataset(train)
  val_ds = df_to_dataset(val, shuffle=False)
  test_ds = df_to_dataset(test, shuffle=False)
  # 用于保存所需的数据列
  feature_columns = []
  # 根据字段名，添加所需的数据列
  for header in ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'slope', 'ca']:
      feature_columns.append(feature_column.numeric_column(header))
  # 取出年龄数据
  age = feature_column.numeric_column("age")
  # 按照18-25/25-30/30-35/.../60-65为年龄分段，最后形成one-hot编码
  age_buckets = feature_column.bucketized_column(
      age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
  # 数据段作为一个新参量添加到数据集
  feature_columns.append(age_buckets)
  # 获取thal字段原始数据
  thal = feature_column.categorical_column_with_vocabulary_list(
      'thal', ['fixed', 'normal', 'reversible'])
  # 做one-hot编码
  thal_one_hot = feature_column.indicator_column(thal)
  # 作为新的数据列添加
  feature_columns.append(thal_one_hot)
  # 将thal嵌入8维空间做向量化
  thal_embedding = feature_column.embedding_column(thal, dimension=8)
  feature_columns.append(thal_embedding)
  # 把年龄段和thal字段作为关联属性加入新列
  crossed_feature = feature_column.crossed_column(
      [age_buckets, thal], hash_bucket_size=1000)
  crossed_feature = feature_column.indicator_column(crossed_feature)
  feature_columns.append(crossed_feature)
  # 定义输入层
  feature_layer = tf.keras.layers.DenseFeatures(feature_columns)
  global model
  # 定义完整模型
  model = tf.keras.Sequential([
        feature_layer,
        layers.Dense(128, activation='relu'),
        layers.Dense(128, activation='relu')
    ])
  if args.categories:
    model.add(layers.Dense(2, activation='softmax'))
  else:
    model.add(layers.Dense(1, activation='sigmoid'))  
  # 模型编译
  model.compile(optimizer='adam',
              loss=(args.categories and 'categorical_crossentropy' or 'binary_crossentropy'),
              metrics=['accuracy'],
              run_eagerly=False)
  # 训练
  model.fit(train_ds,
            validation_data=val_ds,
            epochs=100)
  # 保存
  model.save("./model_structuration")            
  # 评估
  test_loss, test_acc = model.evaluate(test_ds)
  # 显示评估的正确率
  print('===================\nTest accuracy:', test_acc)
  

# 推理函数
def bx_predict():
  # 自定义一条数据,用作推理
  # 62,[0,3,]130,263,[0,0,]97,[0,]1.2,2,1,reversible,1
  dict_data = dict([
    ('age', [62]), # 年龄
    # ('sex', [1]), # （1 = 男；0 = 女）
    # ('cp', [4]), # 胸痛类型（0，1，2，3，4）
    ('trestbps', [130]), # 静息血压
    ('chol', [263]), # 血清胆固醇
    # ('fbs', [1]), # （空腹血糖> 120 mg/dl）（1 = true；0 = false）
    # ('restecg', [0]), # 静息心电图结果（0，1，2）
    ('thalach', [97]), # 最大心率
    # ('exang', [0]), # 运动诱发心绞痛（1 =是；0 =否）
    ('oldpeak', [1.2]), # 与休息时相比由运动引起的 ST 节段下降
    ('slope', [2]), # 在运动高峰 ST 段的斜率
    ('ca', [1]), # 荧光透视法染色的大血管动脉（0-3）的数量
    ('thal', ['reversible']), # 3 =正常；6 =固定缺陷；7 =可逆缺陷
    ])
  # 63,[1,1,]145,233,[1,2,]150,[0,]2.3,3,0,fixed,0  
  dict_data = dict([
    ('age', [63]), # 年龄
    # ('sex', [1]), # （1 = 男；0 = 女）
    # ('cp', [1]), # 胸痛类型（0，1，2，3，4）
    ('trestbps', [145]), # 静息血压
    ('chol', [233]), # 血清胆固醇
    # ('fbs', [1]), # （空腹血糖> 120 mg/dl）（1 = true；0 = false）
    # ('restecg', [2]), # 静息心电图结果（0，1，2）
    ('thalach', [150]), # 最大心率
    # ('exang', [0]), # 运动诱发心绞痛（1 =是；0 =否）
    ('oldpeak', [2.3]), # 与休息时相比由运动引起的 ST 节段下降
    ('slope', [3]), # 在运动高峰 ST 段的斜率
    ('ca', [0]), # 荧光透视法染色的大血管动脉（0-3）的数量
    ('thal', ['fixed']), # 3 =正常；6 =固定缺陷；7 =可逆缺陷
    ])  
  pd = tf.data.Dataset.from_tensor_slices(dict_data)
  pd = pd.batch(1)
  # 取一条数据用作推理
  # pd = df_to_dataset(val[:1])
  # 这里会导致异常：CapturableResourceDeleter.__del__，必须使用global model
  global model
  model = tf.keras.models.load_model('./model_structuration')
  predictions = model.predict(pd)
  print(predictions)
  print('np.argmax=', np.argmax(predictions))


if __name__ == "__main__":
  parser = argparse.ArgumentParser()
  parser.add_argument('-t', '--train', action="store_true", help="train")
  parser.add_argument('-c', '--categories', action="store_true", help="categories")
  args = parser.parse_args()  
  # 打开样本数据文件
  # URL = 'https://storage.googleapis.com/applied-dl/heart.csv'
  URL = './heart.csv'
  dataframe = pd.read_csv(URL)
  # 显示数据的头几行
  # dataframe.head()
  # 将数据中20%分做测试数据
  train, test = train_test_split(dataframe, test_size=0.2)
  # 将数据的80%作为训练数据，20%作为验证数据
  train, val = train_test_split(train, test_size=0.2)
  model = None
  # 是否使用分类模式，修改需要重新训练
  if (args.train):
    bx_train()
  else:
    bx_predict()

SamSha1971

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow(2.x)对结构化数据进行分类

TensorFlow(2.x)对结构化数据进行分类参考文档在参考文档https://tensorflow.google.cn/tutorials/structured_data/feature_columns的基础上，增加了分类模式。使用说明$ python bx.py --helpusage: bx.py [-h] [-t] [-c]optional arguments: -h, --help show this help message and exit -t, --t
复制链接

扫一扫

专栏目录