TensorFlow（二）-----细节记录

最新推荐文章于 2022-12-24 17:00:00 发布

hurricane_li

最新推荐文章于 2022-12-24 17:00:00 发布

阅读量556

点赞数

分类专栏：机器学习文章标签： tensorflow 人工智能 python

本文链接：https://blog.csdn.net/hurricane_li/article/details/115402292

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

均方误差（MSE）是用于回归问题的常见损失函数。用于回归的评估指标与分类不同。常见的回归指标是平均绝对误差（MAE）。

当数字输入数据特征的值存在不同范围时，每个特征应独立缩放到相同范围。

如果训练数据不多，一种方法是选择隐藏层较少的小网络，以避免过度拟合。

早期停止是一种防止过度拟合的有效技术。

# 自定义的callback，通过为每个完成的时期打印一个点来显示训练进度
class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs):
    if epoch % 100 == 0: print('')
    print('.', end='')

model = build_model()

# patience 值用来检查改进 epochs 的数量
early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)

history = model.fit(normed_train_data, train_labels, epochs=EPOCHS,
                    validation_split = 0.2, verbose=0, callbacks=[early_stop, PrintDot()])

plot_history(history)

归一化的方法：

train_stats = train_dataset.describe()
def norm(x):
  return (x - train_stats['mean']) / train_stats['std']
normed_train_data = norm(train_dataset)
normed_test_data = norm(test_dataset)

DataFrame数据按比例进行分割：

train_dataset = dataset.sample(frac=0.8,random_state=0)
test_dataset = dataset.drop(train_dataset.index)

对数据列进行分列one-hot编码：

origin = dataset.pop('Origin')
dataset['USA'] = (origin == 1)*1.0
dataset['Europe'] = (origin == 2)*1.0
dataset['Japan'] = (origin == 3)*1.0
dataset.tail()

pandas读取csv更详细的使用：

column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
                'Acceleration', 'Model Year', 'Origin']
raw_dataset = pd.read_csv(dataset_path, names=column_names,
                      na_values = "?", comment='\t',
                      sep=" ", skipinitialspace=True)

Keras下载数据：

dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")
dataset_path

seaborn绘制简单的关联关系：

sns.pairplot(train_dataset[["MPG", "Cylinders", "Displacement", "Weight"]], diag_kind="kde")

绘制history的loss等曲线：

def plot_history(history):
  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch
  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Abs Error [MPG]')
  plt.plot(hist['epoch'], hist['mae'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mae'],
           label = 'Val Error')
  plt.ylim([0,5])
  plt.legend()
  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Square Error [$MPG^2$]')
  plt.plot(hist['epoch'], hist['mse'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mse'],
           label = 'Val Error')
  plt.ylim([0,20])
  plt.legend()
  plt.show()

plot_history(history)

使用test数据评估训练后的模型：

loss, mae, mse = model.evaluate(normed_test_data, test_labels, verbose=2)
print("Testing set Mean Abs Error: {:5.2f} MPG".format(mae))

GitHub - facebookresearch/detectron2: Detectron2 is FAIR's next-generation platform for object detection, segmentation and other visual recognition tasks.

hurricane_li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow（二）-----细节记录

由于这是一个二分类问题且模型输出概率值（一个使用 sigmoid 激活函数的单一单元层），我们将使用 binary_crossentropy 损失函数。一般来说 binary_crossentropy 更适合处理概率，因为它能够度量概率分布之间的“距离”。为什么现在不使用测试集？我们的目标是只使用训练数据来开发和调整模型，然后只使用一次测试数据来评估准确率。EmbeddingGlobalAveragePooling1DRMSprop均方误差（MSE）是用于回归问题的常见损失函数。用...
复制链接

扫一扫