tensorflow定义多个优化器加速Embedding的训练

最新推荐文章于 2024-04-21 21:02:10 发布

零落_World

最新推荐文章于 2024-04-21 21:02:10 发布

阅读量2.8k

点赞数 1

分类专栏： tensorflow 深度学习推荐算法文章标签： tensorflow 深度学习

本文链接：https://blog.csdn.net/cdj0311/article/details/107246476

版权

在遇到大规模推荐算法训练时，我们常常会有不同种类的特征，大体上可分为稀疏特征和稠密特征两类。

稀疏特征一般会经过Embedding转为稠密特征再传入全连接层。然而，当稀疏特征中包含大量ID类特征时，由于其原始维度非常高（如UserID几乎都是千万级以上），训练如此庞大的Embedding时会非常缓慢。一种解决方案是增大学习率，但学习率过大又会影响稠密特征（如一些向量特征）的训练，所以可以设计两个优化器分别以不同的学习率去优化稀疏Embedding和稠密特征。

这里以tf.estimator + tf.feature_column实现：

def isSparse(variable, fields):
    """ 判断变量是否为稀疏变量 """
    flag = False
    for filed in fields:
        if filed in variable.name:
            flag = True
            break
    return flag

# 获取全局步数
global_step = tf.train.get_global_step()
# 获取所有可训练的变量
trainable_variables = [variable for variable in tf.trainable_variables()]
# 获取稀疏变量列表
sparse_list = [x.name for x in params["feature_configs"].all_columns.values() 
               if "EmbeddingColumn" in str(type(x)) and 
                  "HashedCategoricalColumn

最低0.47元/天解锁文章

零落_World

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
tensorflow定义多个优化器加速Embedding的训练

在遇到大规模推荐算法训练时，我们常常会有不同种类的特征，大体上可分为稀疏特征和稠密特征两类。稀疏特征一般会经过Embedding转为稠密特征再传入全连接层。然而，当稀疏特征中包含大量ID类特征时，由于其原始维度非常高（如UserID几乎都是千万级以上），训练如此庞大的Embedding时会非常缓慢。一种解决方案是增大学习率，但学习率过大又会影响稠密特征（如一些向量特征）的训练，所以可以设计两个优化器分别以不同的学习率去优化稀疏Embedding和稠密特征。这里以tf.estimator + tf.f
复制链接

扫一扫