TensorFlow(2.x)对结构化数据进行分类

TensorFlow(2.x)对结构化数据进行分类

参考文档

在参考文档https://tensorflow.google.cn/tutorials/structured_data/feature_columns的基础上,增加了分类模式。

使用说明

$ python bx.py --help
usage: bx.py [-h] [-t] [-c]
optional arguments:
  -h, --help        show this help message and exit
  -t, --train       train 带参数进行训练,不带参数进行推理
  -c, --categories  categories 带参数是分类模式,不带参数是不分类模式

Examples:
$ python bx.py -t -c	分类训练
$ python bx.py -c		分类推理
$ python bx.py -t		不分类训练
$ python bx.py			不分类推理

数据说明

样本数据各列的名称和所代表的含义成表如下:

描述特征类型数据类型
Age年龄以年为单位Numericalinteger
Sex(1 = 男;0 = 女)Categoricalinteger
CP胸痛类型(0,1,2,3,4)Categoricalinteger
Trestbpd静息血压(入院时,以mm Hg计)Numericalinteger
Chol血清胆固醇(mg/dl)Numericalinteger
FBS(空腹血糖> 120 mg/dl)(1 = true;0 = false)Categoricalinteger
RestECG静息心电图结果(0,1,2)Categoricalinteger
Thalach达到的最大心率Numericalinteger
Exang运动诱发心绞痛(1 =是;0 =否)Categoricalinteger
Oldpeak与休息时相比由运动引起的 ST 节段下降Numericalinteger
Slope在运动高峰 ST 段的斜率Numericalfloat
CA荧光透视法染色的大血管动脉(0-3)的数量Numericalinteger
Thal地中海贫血:3 =正常;6 =固定缺陷;7 =可逆缺陷Categoricalstring
Target心脏病诊断(1 = true;0 = false) Classificationinteger

源码

#!/usr/bin/env python3
from __future__ import absolute_import, division, print_function

import os
import argparse
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow import feature_column
from tensorflow.keras import layers
from sklearn.model_selection import train_test_split

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

# 一种从 Pandas Dataframe 创建 tf.data 数据集的实用程序方法(utility method)
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
    dataframe = dataframe.copy()
    # target字段是确诊是否罹患心脏病的数据,取出来作为标注数据
    labels = dataframe.pop('target')
    # 使用分类,生成Dataset
    if args.categories :      
      labels = tf.keras.utils.to_categorical(labels)
    ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))    
    if shuffle:
        ds = ds.shuffle(buffer_size=len(dataframe))
    ds = ds.batch(batch_size)
    return ds


# 训练函数
def bx_train():
  # 训练、验证、测试三个数据集都转换成Dataset类型
  train_ds = df_to_dataset(train)
  val_ds = df_to_dataset(val, shuffle=False)
  test_ds = df_to_dataset(test, shuffle=False)
  # 用于保存所需的数据列
  feature_columns = []
  # 根据字段名,添加所需的数据列
  for header in ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'slope', 'ca']:
      feature_columns.append(feature_column.numeric_column(header))
  # 取出年龄数据
  age = feature_column.numeric_column("age")
  # 按照18-25/25-30/30-35/.../60-65为年龄分段,最后形成one-hot编码
  age_buckets = feature_column.bucketized_column(
      age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
  # 数据段作为一个新参量添加到数据集
  feature_columns.append(age_buckets)
  # 获取thal字段原始数据
  thal = feature_column.categorical_column_with_vocabulary_list(
      'thal', ['fixed', 'normal', 'reversible'])
  # 做one-hot编码
  thal_one_hot = feature_column.indicator_column(thal)
  # 作为新的数据列添加
  feature_columns.append(thal_one_hot)
  # 将thal嵌入8维空间做向量化
  thal_embedding = feature_column.embedding_column(thal, dimension=8)
  feature_columns.append(thal_embedding)
  # 把年龄段和thal字段作为关联属性加入新列
  crossed_feature = feature_column.crossed_column(
      [age_buckets, thal], hash_bucket_size=1000)
  crossed_feature = feature_column.indicator_column(crossed_feature)
  feature_columns.append(crossed_feature)
  # 定义输入层
  feature_layer = tf.keras.layers.DenseFeatures(feature_columns)
  global model
  # 定义完整模型
  model = tf.keras.Sequential([
        feature_layer,
        layers.Dense(128, activation='relu'),
        layers.Dense(128, activation='relu')
    ])
  if args.categories:
    model.add(layers.Dense(2, activation='softmax'))
  else:
    model.add(layers.Dense(1, activation='sigmoid'))  
  # 模型编译
  model.compile(optimizer='adam',
              loss=(args.categories and 'categorical_crossentropy' or 'binary_crossentropy'),
              metrics=['accuracy'],
              run_eagerly=False)
  # 训练
  model.fit(train_ds,
            validation_data=val_ds,
            epochs=100)
  # 保存
  model.save("./model_structuration")            
  # 评估
  test_loss, test_acc = model.evaluate(test_ds)
  # 显示评估的正确率
  print('===================\nTest accuracy:', test_acc)
  

# 推理函数
def bx_predict():
  # 自定义一条数据,用作推理
  # 62,[0,3,]130,263,[0,0,]97,[0,]1.2,2,1,reversible,1
  dict_data = dict([
    ('age', [62]), # 年龄
    # ('sex', [1]), # (1 = 男;0 = 女)
    # ('cp', [4]), # 胸痛类型(0,1,2,3,4)
    ('trestbps', [130]), # 静息血压
    ('chol', [263]), # 血清胆固醇
    # ('fbs', [1]), # (空腹血糖> 120 mg/dl)(1 = true;0 = false)
    # ('restecg', [0]), # 静息心电图结果(0,1,2)
    ('thalach', [97]), # 最大心率
    # ('exang', [0]), # 运动诱发心绞痛(1 =是;0 =否)
    ('oldpeak', [1.2]), # 与休息时相比由运动引起的 ST 节段下降
    ('slope', [2]), # 在运动高峰 ST 段的斜率
    ('ca', [1]), # 荧光透视法染色的大血管动脉(0-3)的数量
    ('thal', ['reversible']), # 3 =正常;6 =固定缺陷;7 =可逆缺陷
    ])
  # 63,[1,1,]145,233,[1,2,]150,[0,]2.3,3,0,fixed,0  
  dict_data = dict([
    ('age', [63]), # 年龄
    # ('sex', [1]), # (1 = 男;0 = 女)
    # ('cp', [1]), # 胸痛类型(0,1,2,3,4)
    ('trestbps', [145]), # 静息血压
    ('chol', [233]), # 血清胆固醇
    # ('fbs', [1]), # (空腹血糖> 120 mg/dl)(1 = true;0 = false)
    # ('restecg', [2]), # 静息心电图结果(0,1,2)
    ('thalach', [150]), # 最大心率
    # ('exang', [0]), # 运动诱发心绞痛(1 =是;0 =否)
    ('oldpeak', [2.3]), # 与休息时相比由运动引起的 ST 节段下降
    ('slope', [3]), # 在运动高峰 ST 段的斜率
    ('ca', [0]), # 荧光透视法染色的大血管动脉(0-3)的数量
    ('thal', ['fixed']), # 3 =正常;6 =固定缺陷;7 =可逆缺陷
    ])  
  pd = tf.data.Dataset.from_tensor_slices(dict_data)
  pd = pd.batch(1)
  # 取一条数据用作推理
  # pd = df_to_dataset(val[:1])
  # 这里会导致异常:CapturableResourceDeleter.__del__,必须使用global model
  global model
  model = tf.keras.models.load_model('./model_structuration')
  predictions = model.predict(pd)
  print(predictions)
  print('np.argmax=', np.argmax(predictions))


if __name__ == "__main__":
  parser = argparse.ArgumentParser()
  parser.add_argument('-t', '--train', action="store_true", help="train")
  parser.add_argument('-c', '--categories', action="store_true", help="categories")
  args = parser.parse_args()  
  # 打开样本数据文件
  # URL = 'https://storage.googleapis.com/applied-dl/heart.csv'
  URL = './heart.csv'
  dataframe = pd.read_csv(URL)
  # 显示数据的头几行
  # dataframe.head()
  # 将数据中20%分做测试数据
  train, test = train_test_split(dataframe, test_size=0.2)
  # 将数据的80%作为训练数据,20%作为验证数据
  train, val = train_test_split(train, test_size=0.2)
  model = None
  # 是否使用分类模式,修改需要重新训练
  if (args.train):
    bx_train()
  else:
    bx_predict()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值