[机器学习速成课程]特征组合 (Feature Crosses)-学习笔记

最新推荐文章于 2024-08-05 14:58:10 发布

Yulong.Wang

最新推荐文章于 2024-08-05 14:58:10 发布

阅读量5.9k

点赞数 1

分类专栏：学习笔记

本文链接：https://blog.csdn.net/qq_20039347/article/details/79533976

版权

本文介绍了如何在机器学习中利用特征组合（Feature Crosses）提升模型性能，结合FTRL优化算法训练线性模型。通过离散特征的独热编码、分桶（分箱）以及特征组合，创建新的合成特征，从而捕捉数据中的非线性关系。实践任务包括使用分桶特征列训练模型以及添加特征组合训练模型，以观察模型预测效果的改善。

摘要由CSDN通过智能技术生成

特征组合

学习目标：

通过添加其他合成特征来改进线性回归模型（这是前一个练习的延续）
使用输入函数将 Pandas DataFrame 对象转换为 Tensors，并在 fit() 和 predict() 中调用输入函数
使用 FTRL 优化算法进行模型训练
通过独热编码、分箱和特征组合创建新的合成特征

设置

与之前一样

import math

from IPython import display
from matplotlib import cm
from matplotlib import gridspec
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
from sklearn import metrics
import tensorflow as tf
from tensorflow.python.data import Dataset

tf.logging.set_verbosity(tf.logging.ERROR)
pd.options.display.max_rows = 10
pd.options.display.float_format = '{:.1f}'.format

california_housing_dataframe = pd.read_csv("https://storage.googleapis.com/mledu-datasets/california_housing_train.csv", sep=",")

california_housing_dataframe = california_housing_dataframe.reindex(
    np.random.permutation(california_housing_dataframe.index))

与之前一样

def preprocess_features(california_housing_dataframe):
  """Prepares input features from California housing data set.

  Args:
    california_housing_dataframe: A Pandas DataFrame expected to contain data
      from the California housing data set.
  Returns:
    A DataFrame that contains the features to be used for the model, including
    synthetic features.
  """
  selected_features = california_housing_dataframe[
    ["latitude",
     "longitude",
     "housing_median_age",
     "total_rooms",
     "total_bedrooms",
     "population",
     "households",
     "median_income"]]
  processed_features = selected_features.copy()
  # Create a synthetic feature.
  processed_features["rooms_per_person"] = (
    california_housing_dataframe["total_rooms"] /
    california_housing_dataframe["population"])
  return processed_features

def preprocess_targets(california_housing_dataframe):
  """Prepares target features (i.e., labels) from California housing data set.

  Args:
    california_housing_dataframe: A Pandas DataFrame expected to contain data
      from the California housing data set.
  Returns:
    A DataFrame that contains the target feature.
  """
  output_targets = pd.DataFrame()
  # Scale the target to be in units of thousands of dollars.
  output_targets["median_house_value"] = (
    california_housing_dataframe["median_house_value"] / 1000.0)
  return output_targets

与之前一样

# Choose the first 12000 (out of 17000) examples for training.
training_examples = preprocess_features(california_housing_dataframe.head(12000))
training_targets = preprocess_targets(california_housing_dataframe.head(12000))

# Choose the last 5000 (out of 17000) examples for validation.
validation_examples = preprocess_features(california_housing_dataframe.tail(5000))
validation_targets = preprocess_targets(california_housing_dataframe.tail(5000))

# Double-check that we've done the right thing.
print "Training examples summary:"
display.display(training_examples.describe())
print "Validation examples summary:"
display.display(validation_examples.describe())

print "Training targets summary:"
display.display(training_targets.describe())
print "Validation targets summary:"
display.display(validation_targets.describe())

与之前一样

def construct_feature_columns(input_features):
  """Construct the TensorFlow Feature Columns.

  Args:
    input_features: The names of the numerical input features to use.
  Returns:
    A set of feature columns
  """
  return set([tf.feature_column.numeric_column(my_feature)
              for my_feature in input_features])

与之前一样

def my_input_fn(features, targets, batch_size=1, shuffle=True, num_epochs=None):
    """Trains a linear regression model of one feature.
  
    Args:
      features: pandas DataFrame of features
      targets: pandas DataF

最低0.47元/天解锁文章

Yulong.Wang

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
[机器学习速成课程]特征组合 (Feature Crosses)-学习笔记

特征组合学习目标：通过添加其他合成特征来改进线性回归模型（这是前一个练习的延续）使用输入函数将 Pandas DataFrame 对象转换为 Tensors，并在 fit() 和 predict() 中调用输入函数使用 FTRL 优化算法进行模型训练通过独热编码、分箱和特征组合创建新的合成特征设置与之前一样import mathfrom IPython import displayfrom ...
复制链接

扫一扫

专栏目录