TensorFlow(2.x)对结构化数据进行分类
参考文档
在参考文档https://tensorflow.google.cn/tutorials/structured_data/feature_columns的基础上,增加了分类模式。
使用说明
$ python bx.py --help
usage: bx.py [-h] [-t] [-c]
optional arguments:
-h, --help show this help message and exit
-t, --train train 带参数进行训练,不带参数进行推理
-c, --categories categories 带参数是分类模式,不带参数是不分类模式
Examples:
$ python bx.py -t -c 分类训练
$ python bx.py -c 分类推理
$ python bx.py -t 不分类训练
$ python bx.py 不分类推理
数据说明
样本数据各列的名称和所代表的含义成表如下:
列 | 描述 | 特征类型 | 数据类型 |
---|---|---|---|
Age | 年龄以年为单位 | Numerical | integer |
Trestbpd | 静息血压(入院时,以mm Hg计) | Numerical | integer |
Chol | 血清胆固醇(mg/dl) | Numerical | integer |
Thalach | 达到的最大心率 | Numerical | integer |
Oldpeak | 与休息时相比由运动引起的 ST 节段下降 | Numerical | integer |
Slope | 在运动高峰 ST 段的斜率 | Numerical | float |
CA | 荧光透视法染色的大血管动脉(0-3)的数量 | Numerical | integer |
Thal | 地中海贫血:3 =正常;6 =固定缺陷;7 =可逆缺陷 | Categorical | string |
Target | 心脏病诊断(1 = true;0 = false) | Classification | integer |
源码
#!/usr/bin/env python3
from __future__ import absolute_import, division, print_function
import os
import argparse
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow import feature_column
from tensorflow.keras import layers
from sklearn.model_selection import train_test_split
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
# 一种从 Pandas Dataframe 创建 tf.data 数据集的实用程序方法(utility method)
def df_to_dataset(dataframe, shuffle=True, batch_size=32):
dataframe = dataframe.copy()
# target字段是确诊是否罹患心脏病的数据,取出来作为标注数据
labels = dataframe.pop('target')
# 使用分类,生成Dataset
if args.categories :
labels = tf.keras.utils.to_categorical(labels)
ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))
if shuffle:
ds = ds.shuffle(buffer_size=len(dataframe))
ds = ds.batch(batch_size)
return ds
# 训练函数
def bx_train():
# 训练、验证、测试三个数据集都转换成Dataset类型
train_ds = df_to_dataset(train)
val_ds = df_to_dataset(val, shuffle=False)
test_ds = df_to_dataset(test, shuffle=False)
# 用于保存所需的数据列
feature_columns = []
# 根据字段名,添加所需的数据列
for header in ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'slope', 'ca']:
feature_columns.append(feature_column.numeric_column(header))
# 取出年龄数据
age = feature_column.numeric_column("age")
# 按照18-25/25-30/30-35/.../60-65为年龄分段,最后形成one-hot编码
age_buckets = feature_column.bucketized_column(
age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
# 数据段作为一个新参量添加到数据集
feature_columns.append(age_buckets)
# 获取thal字段原始数据
thal = feature_column.categorical_column_with_vocabulary_list(
'thal', ['fixed', 'normal', 'reversible'])
# 做one-hot编码
thal_one_hot = feature_column.indicator_column(thal)
# 作为新的数据列添加
feature_columns.append(thal_one_hot)
# 将thal嵌入8维空间做向量化
thal_embedding = feature_column.embedding_column(thal, dimension=8)
feature_columns.append(thal_embedding)
# 把年龄段和thal字段作为关联属性加入新列
crossed_feature = feature_column.crossed_column(
[age_buckets, thal], hash_bucket_size=1000)
crossed_feature = feature_column.indicator_column(crossed_feature)
feature_columns.append(crossed_feature)
# 定义输入层
feature_layer = tf.keras.layers.DenseFeatures(feature_columns)
global model
# 定义完整模型
model = tf.keras.Sequential([
feature_layer,
layers.Dense(128, activation='relu'),
layers.Dense(128, activation='relu')
])
if args.categories:
model.add(layers.Dense(2, activation='softmax'))
else:
model.add(layers.Dense(1, activation='sigmoid'))
# 模型编译
model.compile(optimizer='adam',
loss=(args.categories and 'categorical_crossentropy' or 'binary_crossentropy'),
metrics=['accuracy'],
run_eagerly=False)
# 训练
model.fit(train_ds,
validation_data=val_ds,
epochs=100)
# 保存
model.save("./model_structuration")
# 评估
test_loss, test_acc = model.evaluate(test_ds)
# 显示评估的正确率
print('===================\nTest accuracy:', test_acc)
# 推理函数
def bx_predict():
# 自定义一条数据,用作推理
# 62,[0,3,]130,263,[0,0,]97,[0,]1.2,2,1,reversible,1
dict_data = dict([
('age', [62]), # 年龄
# ('sex', [1]), # (1 = 男;0 = 女)
# ('cp', [4]), # 胸痛类型(0,1,2,3,4)
('trestbps', [130]), # 静息血压
('chol', [263]), # 血清胆固醇
# ('fbs', [1]), # (空腹血糖> 120 mg/dl)(1 = true;0 = false)
# ('restecg', [0]), # 静息心电图结果(0,1,2)
('thalach', [97]), # 最大心率
# ('exang', [0]), # 运动诱发心绞痛(1 =是;0 =否)
('oldpeak', [1.2]), # 与休息时相比由运动引起的 ST 节段下降
('slope', [2]), # 在运动高峰 ST 段的斜率
('ca', [1]), # 荧光透视法染色的大血管动脉(0-3)的数量
('thal', ['reversible']), # 3 =正常;6 =固定缺陷;7 =可逆缺陷
])
# 63,[1,1,]145,233,[1,2,]150,[0,]2.3,3,0,fixed,0
dict_data = dict([
('age', [63]), # 年龄
# ('sex', [1]), # (1 = 男;0 = 女)
# ('cp', [1]), # 胸痛类型(0,1,2,3,4)
('trestbps', [145]), # 静息血压
('chol', [233]), # 血清胆固醇
# ('fbs', [1]), # (空腹血糖> 120 mg/dl)(1 = true;0 = false)
# ('restecg', [2]), # 静息心电图结果(0,1,2)
('thalach', [150]), # 最大心率
# ('exang', [0]), # 运动诱发心绞痛(1 =是;0 =否)
('oldpeak', [2.3]), # 与休息时相比由运动引起的 ST 节段下降
('slope', [3]), # 在运动高峰 ST 段的斜率
('ca', [0]), # 荧光透视法染色的大血管动脉(0-3)的数量
('thal', ['fixed']), # 3 =正常;6 =固定缺陷;7 =可逆缺陷
])
pd = tf.data.Dataset.from_tensor_slices(dict_data)
pd = pd.batch(1)
# 取一条数据用作推理
# pd = df_to_dataset(val[:1])
# 这里会导致异常:CapturableResourceDeleter.__del__,必须使用global model
global model
model = tf.keras.models.load_model('./model_structuration')
predictions = model.predict(pd)
print(predictions)
print('np.argmax=', np.argmax(predictions))
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument('-t', '--train', action="store_true", help="train")
parser.add_argument('-c', '--categories', action="store_true", help="categories")
args = parser.parse_args()
# 打开样本数据文件
# URL = 'https://storage.googleapis.com/applied-dl/heart.csv'
URL = './heart.csv'
dataframe = pd.read_csv(URL)
# 显示数据的头几行
# dataframe.head()
# 将数据中20%分做测试数据
train, test = train_test_split(dataframe, test_size=0.2)
# 将数据的80%作为训练数据,20%作为验证数据
train, val = train_test_split(train, test_size=0.2)
model = None
# 是否使用分类模式,修改需要重新训练
if (args.train):
bx_train()
else:
bx_predict()