什么是id类特征
举腾讯2020年的广告大赛为例子
如上图所示:原始数据经过脱敏之后是一些id数字类的特征,这些每一个creative_id代表一种广告,若将id类特征onehot之后将会得到很大的类矩阵,接近300万维,这是不可能做后续工作的。因此需要通过id2embedding方法将id类特征变成低维稠密的embedding向量。
onehot
非正常人做法QAQ
tfidf
首先什么是tfidf:
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)
t f w , i = 文 本 i 中 词 w 出 现 的 次 数 文 本 i 中 所 有 词 的 个 数 tf_{w,i}=\frac{文本i中词w出现的次数}{文本i中所有词的个数} tfw,i=文本i中所有词的个数文本i中词w出现的次