整理goolge blog:tensorflow feature columns简介

本文介绍了TensorFlow中用于处理特征的feature columns,包括Numeric Column、Bucketized Column、Categorical identity column、Categorical vocabulary column、Hash buckets以及Feature crosses、Indicator和Embedding columns。通过对非数字特征的转换,如将分类数据转换为模型可处理的形式,提升机器学习模型的效果。
摘要由CSDN通过智能技术生成

在现实世界中,有很多非数字型的特征,比如地址、经纬度、姓名等如下图所示:

Figure 1. 非数字特征.

为什么要处理成数字呢,因为在DNN中,每个神经元上执行的其实都是输入数据和权重的矩阵乘法和加法操作,因此我们必须将特征转换为一个数字或者数字的vector。
以product_class表示产品分类特征为例,包含三个分类类型:
kitchenware —— 厨房用品
electronics —— 电子产品
sports —— 运动产品
ML模型经常以简单的vector表示分类特征,分类存在以1表示,分类不存在以0表示,当product_class为sports时,ML模型把product_class表示为[0,0,1],表示:
0: kitchenware is absent
0: electronics is absent
1: sports: is present

Figure 2. feature_column将原始数据和model需要的数据联系起来。

对于这些特征如何通过tf.feature_column处理表示呢?
tf.feature_column包含9中处理特征的方法,其层次关系如下:

Figure 3. Feature column方法分为两种主要类别和一个混合类别。

主要包括处理分类数据的categorial column和数值数据的dense column,还有个混合的bucketized_column。

Numeric Column

numeric column的api
主要处理数值型特征,这个比较简单,既可以是scalar标量,也可以是vector或者tensor。

Bucketized Column

bucketized column的api
对于一些数值特征,我们不想直接作为模型输入,而是想根据数值范围划分为不同类型,比如年龄划分为不同年龄段等,这时候

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值