2.4 用户特征提取
历史query特征、用户历史、浏览特征用户分类特征、时效性、用户体验特征。
历史Query特征提取:拍卖词匹配算法、切词边界、语义相关性、Query分类。
历史页面特征:网页关键词提取、网页分类特征、网页广告点击、历史浏览页面模版。
用户分类:Query关键词、Query分类、站点、页面标题、目录、主要区域、页面分类、广告点击&广告分类、频次、组合、时间衰减。
特征挖掘、人工评估、决策树。 语料净化、特征选择、模型构建、效果评估。
用户体验:单调性、醒目度、敏感性。 用户反馈:兴趣、广告。
Session特征分析:关键词特征提取修正、意图识别、语义拓展。
2.5 广告特征提取:
拍卖词特征、创意特征、到达页特征。
拍卖词:结构分析、Term赋权。 广告特征提取。
创意特征:文本创意、多媒体创意。飘红、颜色、形状、语义、大小。
到达页特征:页面分析、页面标题、转化页/咨询页。
广告特征分析:广告行业分类、敏感、欺诈。不相关词语挖掘、相关性匹配。
3.1 CTR预估背景:
点击收费:CPC、CPM、CPC\CPM混合计费。
广告计费机制:b(i)*p(i)最高者为winner。
计费 b(2)p(2)/p(1) 广告点击率越高单价可以越低、实际计算取排名第二的出价计算。
3.2 CTR预估特点:
海量数据:训练样本、特征复杂。
点击率低:数据稀疏。
噪声数据多:
数据大、特征多、类别不平衡、噪音多。
挑战二:时效性。
CTR随时间变化、季节变化、人兴趣变化。
Badcase快速下线。新网站、新广告快速迭代---冷启动。
方法:在线算法、移动时间窗口Batch算法。
挑战三:Exploration。
CTR预估决定了未来训练样板中的广告。
exploration/exploitation trade-off。
长期收益 vs 短期收益。
3.3 CTR预估模型:
特征处理:类别特征、连续特征。使用one-hot编码类型特征。使用特征外积表示特征组合。特征维数等于类别和。
特征选择:
Filter类:单特征AUC、单特征AUC上界、GINI指数、信息熵、点击直方图
Wrapper类:AUC、AUC上界、MAE、WMAE、似然LOSS、预估CTR均值、预估CTR方差。
Embedding类:L1正则化、Grafting分、Foba分。