今天你面试了吗?
文章平均质量分 69
DataAlgo
想玩数据又想搞模型!
展开
-
tf.data.Dataset读取数据详细文档
tf.data.Dataset用法原创 2021-12-13 15:22:30 · 3495 阅读 · 0 评论 -
【feature_column处理】- crossed_column交叉列
1. crossed_column作用: 对hash映射后的特征进行交叉2. 特征交叉的优势: 在有些情况下,相比特征one-hot编码,会有更好的效果3. 参数说明:def crossed_column(keys, hash_bucket_size, hash_key=None):参数参数说明key可迭代的交叉特征hash_bucket_size一个int> 1.桶的数量。ont-hot的长度。hash_key指定将被使用的HASH_KEY Finge原创 2021-11-26 17:28:08 · 697 阅读 · 0 评论 -
【feature_column处理】- indicator_column(指示列)和embedding_column(嵌入列)
1. 开胃菜我们先来了解一下tf.feature_column.input_layerdef input_layer(features, feature_columns, weight_collections=None, trainable=True, cols_to_vars=None, cols_to_output_tensors=None)原创 2021-11-25 19:19:05 · 1150 阅读 · 0 评论 -
【feature_column处理】- bucketized_column分桶列
1. 在做特征处理的时候,我们不希望把一个数值直接传给模型,而是根据数值的范围对值分到不同的categories这个时候就用到了tf.feature_column.bucketized_column2.原理很简单,如图比如你对一个日期的特征要做处理,可以利用分桶的方式把它分到任意一个bucket里面给日期出分桶结果日期分桶表示1993[1, 0, 0, 0]2008[0, 1, 0, 0]2015[0, 0, 1, 0]2021[0, 0, 0, 1原创 2021-11-25 17:09:05 · 1233 阅读 · 0 评论 -
【feature_column处理】- numeric_column数值列
1· 对于连续特征来说,feature_column里面用的最多的就是Numeric column这个函数了Numeric column函数是比较简单的,我们直接看函数defdef numeric_column(key, shape=(1,), default_value=None, dtype=dtypes.float32, normalizer_fn原创 2021-11-25 15:41:17 · 1514 阅读 · 0 评论 -
【feature_column处理】- categorical_column_with_hash_bucket哈希列
categorical_column_with_hash_bucket哈希列,对于处理包含大量文字或数字类别的特征时可使用hash的方式,这能快速地建立对应的对照表分桶的方式,但这次分桶是根据hash的方式在有限的长度进行划分1. 比如:我们有120个单词,我们只希望分成100个类别,这个时候多出的20个怎么来划分?101: 101 % 100 = 1 标记1 —> 和1一个桶102: 102 % 100 = 2 标记2 —> 和2一个桶…120: 120 % 10原创 2021-11-24 16:57:08 · 1453 阅读 · 0 评论 -
【feature_column处理】- categorical_column_with_vocabulary分类词汇列
1. 上个专栏我们聊过,categorical_column_with_identity可以将词汇转化为one-hot的embedding形式,但是需要先将词汇转化成数字,然后再做onehot处理上篇博客,了解一下https://blog.csdn.net/qq_31878083/article/details/121512300?spm=1001.2014.3001.55022. 分类词汇列categorical_column_with_vocabulary_listcategorical原创 2021-11-24 15:11:22 · 1426 阅读 · 0 评论 -
【feature_column处理】- categorical_column_with_identity分类标识列
categorical_column_with_identity:把numerical data转乘one hot encoding但是该函数不直接对文本的list进行处理参数介绍:def categorical_column_with_identity(key, num_buckets, default_value=None):key: 要求输入features是一个字典,key是特征名称,value表示特征值。num_buckets: 分桶的个数原创 2021-11-24 12:11:11 · 1035 阅读 · 0 评论