网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
d). 用户请求历史分析:用户的兴趣点和意图的持续时间是有限的,因此用户的查询历史对该用户对广告的点击倾向有很强的指导性。特别的对于某些行业/事情,用户的兴趣点有限而另外一些行业用户的兴趣点持续的时间比较长,我们也可以根据用户的兴趣对用户的长期兴趣和短期兴趣分别建模。
e). 广告点击历史分析:同样的我们也可以使用用户点击的广告对新用户打一些行业/兴趣的标签。
f). 广告展现位置分析:在广告展现时,不同位置的被用户看到的概率不同。因此可以把点击率细分为广告被看到的概率和广告被点击的概率。同样的在排序过程中,我们也可以考虑如果某个广告之后的广告被点击才统计这个广告展示并且用户并未产生兴趣。
g). 主题模型:LDA可以有效的扩充广告分类模型和对新增的广告进行分类和分析。而且LDA支持多分类,对搜索广告分类和新增广告处理很合适。
3. 广告质量度:
4. 不相关广告过滤:
由于广告搜索词与广告描述之间存在一定的差异,而对于无商业意义的广告词或者对搜索词出不相关的广告词会极大的损害用户的体验,因此我们需要对不相关的广告做出过滤规则。仔细分析搜索词语与广告的描述之间的关系,我们可以对广告扩展规则和过程做出一定的限制,对无商业意图的查询词语出的广告做出一定的过滤规则;同样的我们也可以根据关键词黑名单、广告的查询意图、人工标注、地域属性、低关键词权重进行再次的过滤;对广告和查询词做中心词分析,对广告分类继续细化用户的查询意图。
a). 特别的对医疗行业来说,具体的疾病和症状;对于地理位置较强的行业,对学习/教育行业,科目出国等都是需要特殊额外处理的,这可以较大程度提升这些行业的搜索相关性。
5. CTR预估:
三、网盟广告相关:
网盟广告的主要研究主要集中在人群画像、大规模稀疏条件下CTR预估。
1. 人群画像:
a). 男/女识别:
b). 年龄识别:
c). 兴趣标签判定:语义网络。
d). 用户url聚类。
e). 搜索关键词聚类。
2. CTR预估:
a). 大规模稀疏条件下CTR预估:
Google FTRL算法。
3. 计费竞价机制设计:
四、广告反作弊:
广告反作弊的研究主要集中在作弊点击、作弊的渠道的识别。
1. 作弊策略包括:模拟http请求、回放人工点击、模拟浏览器输入。
a. 模拟http请求(易识别):通过分析请求的参数规则,填充请求的参数,可是模拟http请求很难模拟出交互时的所有请求参数。
b. 重放人的输入(易识别):操纵按键精灵记录人点击位置。
c. 模拟浏览器输入:常见htmlunit,phantomjs和webdriver,这些都可以模拟人在浏览器的所有操作(包括打开网页、点击链接、前进后退、鼠标移动等行为)。
2. 反作弊技术:
因为作弊技术在日新月异的更新,而反作弊技术也要求较高的可信性和强可解释性。作弊技术一般以规则配合少量机器学习算法来配合使用。反作弊技术一般分为:请求参数校检、用户请求行为分析、页面访问分析、请求有效验证和作弊访问的关联分析。
a. 用户请求校检:主要基于访问的http请求的参数匹配和有效性分析。可选的特征包括时间戳、Referer、IP(黑白名单)、请求操作系统、请求参数匹配/有效性分析、请求源识别。
b. 用户请求行为分析:鼠标和键盘事件检测、留存时间、访问时间分析。正常情况下,这些特征的数值都会服从正态/高斯分布,可以引入卡方距离衡量正常的分布与作弊分布的距离,并选取合适的阀值来界定作弊点击/渠道。
c. 页面访问分析: 该网页的搜索词分析、点击率分析(一跳、二跳、到达分析)、页面访问行为分析。
d. 请求有效性验证:放置虚假广告诱导作弊系统点击、回ping有效性分析。
e. 作弊访问的关联分析:分析判定作弊的用户/渠道点击的广告,分析各个点击之间的关联关系。
3. 作弊点击的关联分析:
4. 低质量广告过滤:
有些广告主会恶意的展现一些欺诈/违法/色情的广告,这对搜索引擎广告平台来说意味着法律和经营风险。因此我们需要将这些低质量的广告进行过滤。而不法广告主喜欢使用的技术有欺骗性重定向、门页技术、恶意修改广告内容,搜索引擎公司可选的对抗技术有:
a. 工程方向:将执行js的匿名爬虫和搜索引擎的爬虫分别爬取的结果进行比对。
b. 研究方向:根据恶意广告主的广告、行为特征进行学习。
c. 运营方向/机制设计:增加广告主审核标准,增加恶意广告主惩罚。
五、推荐系统相关:
1. 推荐系统构成和评价标准:
2. 推荐系统主要方法:
a). popularity based:
b). content based:
c). collabrative filtering:
3. 模型融合和稳定性:
六、DSP广告的新挑战:
1. DSP定义与基础知识:
a).
b). DMP?
1. 限定条件下CTR预估:
2. 实时竞价:
七、机器学习各算法在计算广告学中的应用:
1. 特征工程:PCA、LDA(一词多义)
a. 连续变量离散化:
因为普遍对连续变量的处理是离散成0、1值。而连续变量的离散化的方法有:等距离离散化、等样本离散化、熵离散化。
b. 特征交叉:
c. 特征选择:
2. CTR预估:LR、GBDT
a. LR是工业界目前唯一能够处理超大规模的特征的模型,适用于特征纬度较高,且每个特征的效果小的情况。线性快速、可解释性强。
b. GBDT适用于大规模的特征效果较强的问题。非线性、速度慢。
3. 搜索广告:LR、LDA
4. 网盟广告:LR(主要关注高纬稀疏矩阵运算)
5. 广告反作弊:决策树、关联规则。
6. Ranking相关:
八、 自然语言基础:
1. 分词原理:
2. 分词基础知识:
1. 分词词库:分词词库是分词的基础,需要针对具体问题搜集修改重要的分词。
2. 分词校正:可以对分词后的切分的结果做出,再次的合并和校正。
3. LDA算法:
参考文献:
-
ROC曲线-阀值评价标准: http://blog.csdn.net/abcjennifer/article/details/7359370
-
DSP和RTB 广告相关知识: http://blog.sina.com.cn/s/blog_4cb4227901018rc5.html
-
互联网广告中的匹配和排序算法: http://www.cnblogs.com/CheeseZH/p/3908446.html
-
谷歌搜索引擎作弊的解释:http://www.yxad.com/News/wangluoyingxiao/News_108775.shtml
-
数据挖掘算法在搜索/互联网广告中的应用:
-
自然语言处理相关基础算法:
-
搜索引擎反作弊技术综述:
-
搜索引擎作弊技术与反作弊技术综述: http://www.docin.com/p-585340207.html
-
百度计算广告学公开课: http://openresearch.baidu.com/courses/1301.jhtml
-
秒针系统互联网广告反作弊白皮书: http://www.meihua.info/TODAY/post/channel_10/post_5dc5469a-7ef1-469d-9a75-b0930f3d8a4a.aspx
-
DSP 算法初探: http://pan.baidu.com/share/link?shareid=322913515&uk=3138366223
11. 大规模主题模型在腾讯业务中的应用(耗费大量资源,效果一般): http://pan.baidu.com/share/link?shareid=990805913&uk=2452582877
-
搜索引擎的意图识别: http://blog.csdn.net/zhoubl668/article/details/7857756
-
DSP与网盟广告推广对比: http://down.51cto.com/data/1097390
14. 百度技术沙龙—广告数据上的大规模机器学习:http://blog.csdn.net/three_body/article/details/24913343
- 计算广告学-刘鹏: http://study.163.com/course/introduction.htm?courseId=321007#/courseDetail
【CTR预估】
-
Follow-the-regularized-Leader and Mirror Descent: Equivalence Theorems and L1 Regularization
-
Predicting Clicks Esitimating the Click-Through Rate for New Ads
-
Ad Click Prediction: a view from the Trenches
【广告分类】
- A taxonomy of web search
【广告反作弊】
- Collaborative Click Fraud Detection and Prevention System
- Click Fraud Resistant Methods for Learning advertising network streams
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上C C++开发知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
Methods for Learning advertising network streams
[外链图片转存中…(img-x3YBIrym-1715677187131)]
[外链图片转存中…(img-3ZVH2ykE-1715677187131)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上C C++开发知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新