爱学习的菜鸟罢了-CSDN博客

原创手推A Unified Solution to Constrained Bidding in Online Display Advertising论文

A Unified Solution to Constrained Bidding in Online Display Advertising：一种对在线展示广告约束出价问题的通用解决方案未开放但是可以搜到NeuralAuction: 电商广告中的端到端机制优化方法 https://arxiv.org/abs/2106.03593一种使用真负样本的在线延迟反馈建模 https://arxiv.org/abs/2104.14121广告主端的“猜你喜欢”：在线广告投放策略推荐系统 https://

2023-04-27 20:52:33 1651 1

原创手推FlinkML2.2（三）

较低的P值意味着在零假设成立的情况下，观察到如此极端的检验统计量是非常罕见的，这可能表明零假设是不成立的。相反，较高的P值意味着在零假设成立的情况下，观察到如此极端的检验统计量是相对常见的，这可能表明零假设是成立的。Swing算法是一种用于推荐系统的基于相似度的算法，它使用用户-项目图的拓扑结构来计算项目之间的相似度和用户与项目之间的关系。例如，对于数据集中的三个特征列（"feature1"，"feature2"，"feature3"），向量组合器将其转换为一个向量列（"features"）。

2023-04-24 19:32:54 938

原创手推FlinkML2.2（二）

FeatureHasher（特征哈希器）是一种用于处理高维分类特征（如文本或类别特征）的方法。它将特征转换为固定长度的数值向量，以便在机器学习模型中使用。特征哈希通过哈希函数将特征映射到较低维度的向量空间，可以有效地处理大规模和高维数据集。特征哈希的主要优点是内存效率和计算速度。由于它不需要存储词汇表或其他映射信息，因此可以处理大规模数据集。同时，特征哈希在转换过程中具有较高的计算速度。特征哈希的主要缺点是信息损失。由于哈希函数可能将不同的特征映射到相同的索引，因此会出现哈希冲突。这种冲突可能导致特

2023-04-24 19:22:00 1033 1

原创手推FlinkML2.2（一）

Java快速入门 # 本文档提供了一个关于如何使用Flink ML的快速入门。阅读本文档的用户将被指导提交一个简单的Flink作业，用于训练机器学习模型并提供预测服务。求助，我卡住了！# 如果你遇到困难，请查看社区支持资源。特别是，Apache Flink的用户邮件列表一直被评为Apache项目中最活跃的之一，是快速获得帮助的好途径。前提条件 # 确保Java 8或更高版本已经安装在您的本地计算机上。要检查已安装的Java版本，请在终端中输入：$ java -version 下载 Flink

2023-04-24 19:16:04 1220

原创计算广告（十八）

2019年初，悉尼的Gartner数据与分析峰会预测，增强型数据分析、持续型智能和可解释的人工智能（AI）将在未来三到五年内具有显著的颠覆性潜力，成为数据和分析技术的主要趋势之一。MMM 模型可以应用于模拟与预测，可以用于回答改变营销因子后可能引起的销量变化，如下图所示，当数字广告投入增长 10% 后其销量也增长了 10%，数字广告增长20% 后，其销量增长 16%（说明 mmm 营销因子的投入是具有饱和效应的），同样，因子中的负面销量也可以进行模拟，如图当竞品折扣增长 10% 后，销量会下降 2%。

2023-04-22 12:41:56 1338

原创计算广告（十七）

广告主希望能精准评估每个渠道的效能，对每个渠道在营销中所扮演的角色有清楚的洞察，并能制定针对渠道投入的优化方案，甚至进行渠道组合的营销方案制定。若渠道 A 的圆形与渠道 B 的圆形有较大面积重合，则说明有相当数量的转化是由这两个渠道共同完成，有合作性，可以进一步了解两个渠道承担怎样的角色分工，如何合作完成转化。信息流作为中间促进角色时，向前主要承接了展示广告，向后主要对展示广告有助攻作用，形成了展示广告 -> 信息流，信息流 -> 展示广告的关键路径，可以进一步比较两个渠道先后顺序不同对转化效率的影响。

2023-04-21 21:52:17 1130

原创计算广告（十六）

广告主可以根据此评估合理的归因周期。本次营销活动以成交金额为目标，线性归因并结合营销成本计算各渠道的投入产出发现，展示广告的 ROI 为 0.5 低于 1 ，意味着价值回报低于投入，是亏本的，但考虑到展示广告为品牌广告，目的更多是为了获得品牌知名度而不是直接成交，ROI 低于1 在预期范围内。

2023-04-21 21:10:47 1001

原创计算广告（十五）

当品牌向目标消费者进行新品推广、内容种草或心智提升时，关注的并非短期销量，而是期望通过大规模曝光与受众沟通来传达品牌形象、产品功能，影响消费者态度，提升品牌认知度，从而影响长期购买决策，增加销量并实现市场份额的提升。通过比较不同渠道来源用户的生命周期价值，例如最近90天内通过付费搜索和自然搜索获得的用户，以及通过网站A和网站B获得的用户，可以判断哪种渠道带来了更高价值的用户。因此，需要合适的分析模型来整合所有渠道的数据，全面了解消费者行为，洞悉行为规律，获得精细化的洞察结论，并更好地服务消费者。

2023-04-21 15:12:28 340

原创计算广告（十四）

客户参与价值分层模型（CEV，customer engagement value）是一个综合评价模型，它依据客户终身价值（CLV，customer lifetime value）、推荐价值（CRV，customer referral value）、社交影响价值（CIV，customer influencer value）和知识反馈价值（CKV，customer knowledge value）进行评分，并将评分结果进行分层。通过调整分箱数量和权重，可以更好地满足业务需求，挖掘高价值用户，优化运营策略。

2023-04-20 21:13:44 688

原创计算广告（十三）

Wide & DeepWide & Deep模型是一种结合了广度学习（wide learning）和深度学习（deep learning）方法的混合模型。它旨在解决推荐系统中的记忆（memorization）和泛化（generalization）问题。Wide & Deep模型由Google Research于2016年提出，并成功地应用于Google Play应用商店的推荐系统中。该模型旨在同时捕捉低阶特征交互（通过wide部分）和高阶特征交互（通过deep部分），从而充分利用

2023-04-19 12:32:54 802

原创手推广告论文（二）Wide & Deep 推荐系统算法Wide & Deep Learning for Recommender Systems

同时，我们还将结果与另一个仅使用相同特征和神经网络结构的深度模型的1%的用户组进行了比较，发现 Wide & Deep 模型相较于仅深度模型有1%的额外增益（具有统计显著性）。基于嵌入的模型，如因子分解机或深度神经网络，通过为每个查询和项目特征学习低维密集嵌入向量，减少了特征工程的负担，从而使模型能够泛化到之前未见过的查询-项目特征对。在本研究中，我们探索了前馈神经网络与线性模型的联合训练，以及稀疏特征与输出单元之间的直接连接，解决具有稀疏输入数据的通用推荐和排名问题。在数据生成过程中计算分位数边界。

2023-04-19 08:23:08 1109

原创计算广告（十二）

FFM模型FFM（Field-aware Factorization Machine，领域感知因子分解机）是一种广泛应用于推荐系统和点击率预测（CTR）等任务的机器学习模型。它是基于FM（Factorization Machine，因子分解机）的扩展，增加了领域感知特性，使模型在处理高度稀疏的特征组合时具有更强的表达能力。因子分解机（FM）简介 FM是一种广义的线性模型，可以对特征向量的所有二阶组合进行建模。FM的主要优势是能够在高度稀疏的数据中捕捉到特征之间的交互作用，而且参数数量相对较少，计

2023-04-17 22:16:49 656

原创计算广告（十一）

于是，尽管 xi xj这个特征组合没有看到过，但是在预测的时候，如果看到这个新的特征组合，因为 xi和xj都能学会自己对应的embedding，所以可以通过内积算出这个新特征组合的权重。从之前的分析中我们可以看出，虽然FM召回模型为了提高速度而对模型进行了一些调整，但是如果两阶段模型中的排序阶段也采用FM模型，我们可以很容易地得出以下结论：如果FM召回模型使用的特征和两阶段模型的FM排序模型使用相同的特征，那么它们的推荐效果是等价的。总的来说，在广告领域，选择合适的矩阵分解方法取决于具体的应用场景和需求。

2023-04-16 21:34:59 872

原创 LightGBM^v^

在这里，我们忽略了高阶项。因此，我们的目标是学习一个弱学习器 h_t(x)，使得它能够拟合负梯度 (y - F_{t-1}(x))。在构建回归树时，我们需要遍历所有特征，对于连续型特征，我们需要按特征值排序，并尝试所有可能的分割方法，计算每种分割方法的误差，然后找到误差最小的分割方式作为当前节点的分割方法。在之前学习过的模型中，我们通常是通过随机采样的方式实现的， LightGBM采用了另一种采样方式基于梯度的单边采样：根据样本梯度来对梯度小的样本（单边）进行采样，而对梯度大的样本保留。

2023-04-14 21:20:15 949

原创手撕Twitter推荐算法

通过分析你关注的人或有相似兴趣的人的行为，来预测你感兴趣的相关推文，比如，二跳关系U2U2I，为了实现高效动态图构造和游走，内部自研了GraphJet[5]图引擎，发表在VLDB 2016上。稀疏嵌入：最有用的表征模型是SimClusters[7]，发表在KDD 2020上，基于社区发现的异构表征模型，利用矩阵分解算法，基于social graph中有影响力的用户进行社区发现，并根据流行度和用户行为将推文和用户划分到不同空间中。然后，每个用户可以用一个高维向量表示，向量中的每个维度对应一个聚类。

2023-04-14 16:46:00 1695

原创 XGboost和GBDT区别及解读XGboost参数

GBDT和XGBoost区别传统的GBDT以CART树作为基学习器，XGBoost还支持线性分类器，这个时候XGBoost相当于L1和L2正则化的逻辑斯蒂回归（分类）或者线性回归（回归）；传统的GBDT在优化的时候只用到一阶导数信息，XGBoost则对代价函数进行了二阶泰勒展开，得到一阶和二阶导数； XGBoost在代价函数中加入了正则项，用于控制模型的复杂度。从权衡方差偏差来看，它降低了模型的方差，使学习出来的模型更加简单，放置过拟合，这也是XGBoost优于传统GBDT

2023-04-05 21:29:15 903

原创计算广告（十）

GBDT 是一种基于决策树的集成学习方法，主要用于分类和回归问题，而 FTRL 是一种在线学习优化算法，主要应用于大规模稀疏数据的逻辑回归等线性模型。然后，在新的特征空间上应用 FTRL 训练一个线性模型（如逻辑回归），利用 FTRL 的在线学习和正则化优势来优化模型参数。这种方法的主要目的是充分利用GBDT和LR的优势，提高模型的预测性能。总之，GBDT + FTRL 的结合方法可以有效地利用 GBDT 的非线性拟合能力和 FTRL 的在线学习和正则化优势，从而在一定程度上提高模型的性能和泛化能力。

2023-04-05 10:04:06 1347

原创计算广告（九）

XGBoost的目标是找到一组树，使得目标函数最小化，从而在保证模型准确度的同时，提高模型的泛化能力，防止过拟合。在每轮迭代中，我们需要找到一个新的树f_t，使得近似损失函数最小化。具体来说，在第t轮迭代时，我们要学习一个新的基学习器f_t，使得损失函数L(y, ŷ)在当前模型的基础上进一步减小，其中y是真实标签，ŷ是模型预测值。追加训练（Boosting）方法使XGBoost具有较强的拟合能力，同时通过引入模型复杂度，XGBoost能够有效地防止过拟合，从而在保证模型准确性的同时，提高模型的泛化能力。

2023-04-04 17:33:53 480

原创 Copilot on Pycharm

Alt+[查看上一个建议。在网页点击确认授权之后，PyCharm一直的等待授权，切换成全局模式就可以了。添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）

2023-04-04 08:36:07 1797

原创计算广告（八）

DT－Decision Tree决策树，GB是Gradient Boosting，是一种学习策略，GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。其中 Tj学习的是之前 j-1棵树预测结果的残差，这种思想就像准备考试前的复习，先做一遍习题册，然后把做错的题目挑出来，在做一次，然后把做错的题目挑出来在做一次，经过反复多轮训练，取得最好的成绩，GBDT学习的是困难样本，更关注哪些分错的样本。在每次迭代过程中，我们都会训练一个新的弱学习器（通常是决策树），以拟合先前模型的残差。

2023-03-31 19:12:53 351

原创计算广告（七）

广告排序技术为什么要做预估谈到CTR/CVR/DeepCVR，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率/浅层转化/深层转化概率由于现有广告排序遵循ecpm = ctr * cvr * deep_cvr * bid * alpha + hidden_cost，且要作为计费金额计算，所以和推荐、搜索最大的不同是，不能保证序正确，而是要保证整体预估的准确性公式 ecpm = ctr * cvr * deep_cvr * bid * alpha + h

2023-03-30 11:08:22 1379 1

原创计算广告（六）

广告主、业务人员，在使用广告投放系统时，与这个产品进行交互，设定成本，能够最直接感知到的就是实际投放成本，以cpc竞价来看，在实际投放过程中，由于模型预估ctr不可能非常精准，甚至会有量级的差异，再加上二价的机制，都会导致实际投放出的cpc和目标cpc严重不一致，导致成本不可控。PID算法在传统的工业系统中通常输入值都是从0开始，而在广告投放中，广告主的出价不可能从0开始，假如在初次出价时，成交价与目标值差值很小，这就导致PID算法的输出接近于0，因而直接使用其输出作为出价是不合理的。

2023-03-29 09:53:56 537

原创计算广告（五）

NobidNobid（在某手有时也叫MCB，在Facebook叫Lowest Cost）是指广告主不用（也不能）对转化成本进行出价，而是出一个预算（大多数是日预算），然后投放平台的目标是在时间范围内，尽量平稳高效地把这些预算全部花出去，然后获得尽可能低的转化成本的一种投放方式。“四点三率两控制一加强”里的两控制中，一个控制是成本控制，另外一个控制就是预算控制。Nobid就是预算控制中的最主要产品。（还有成本控制和预算控制同时生效的产品）。Nobid在过去一年可能算是国内各大媒体平台都比较火热的一种投

2023-03-28 10:14:20 1630

原创手推广告论文（一）实时广告投竞标优化与预算控制Real time bid optimization with smooth budget delivery in online advertising

Real time bid optimization with smooth budget delivery in online advertising原论文实时广告投竞标优化与预算控制摘要在当今的在线广告市场，每天都有数以十亿计的广告展示位通过实时竞价（RTB）交易所进行公开拍卖。在这种情况下，广告商需要在毫秒级时间内为每个收到的RTB广告请求提交投标。受预算限制，广告商的目标是购买一定数量的广告展示次数，以尽可能多地触及目标用户。同时，广告商希望能够在一天内平稳地分配预算，以覆盖更广泛的受众

2023-03-27 18:51:27 813

原创计算广告（四）

深入理解OCPX双出价双出价是指广告主可以出两个价格，一个浅度转化（例如激活）的价格，一个深度转化（例如付费）的价格。投放平台则尽量去同时满足广告主对这两种转化成本达标的诉求，或者这两个出价中隐含的浅度转化到深度转化的率的诉求。双出价在国内的很多大媒体的投放平台，已经不是新鲜产物，产品和技术也比较成熟了。虽然双出价外显的产品形态并不复杂，相比单出价就是多填一个价格，但是背后的实现方式却可以有很多变化，对应的投放策略也不尽相同。一、为什么广告主需要双出价？为什么广告主都已经能对更深度的转化出价，并

2023-03-26 22:33:20 1179

原创计算广告（三）

出价是最靠近广告主侧的业务广告精排结束，就基本确定哪些广告要被投放出去了，这个时候对于该用户流量优化调整已经微不足道了（ctr, cvr, deep_cvr），这个时候，就可以采用出价的方式来对模型结果做干预，但是做干预也倾向于基于一个原则（本次广告展现预估花掉广告主多少钱，是不是能带来更多的广告主转化）竞价广告，对于同一个流量来说，是基于ecpm排序作为出哪个广告的标准，相关的ecpm公式为：ecpm = rank_bid * pctr * pcvr + hidden_costecpm

2023-03-25 22:56:08 3332

转载论文（建议看原文）

KDD、CIKM、ICML公众号“笑傲算法江湖”，先人一步获取更多内容人工智能过去十年发展快速，也逐步从学术研究走向商业化。但是该领域的主要成果产出依然会发表在国际顶级期刊和会议（即，顶刊顶会）上。顶会顶刊，通常是指《CCF 推荐国际学术期刊和会议目录》和 ACM 计算机学分类系统相关子领域的 A 类期刊和会议，此外也有相关专家和团体的推荐。在人工智能领域，除了大家最为熟知的最核心的四大顶会AAAI、IJCAI、ICML和NeurIPS，以及作为计算机视觉和自然语言为代表的CVPR和ACL这两

2023-03-24 22:39:18 361

原创计算广告（二）

第一部分讲了一些业务和平台组件与总览流程，第二部分明晰广告类型及主要策略普通广告类型个性化广告个性化广告（Personalized Ads）：这类广告根据用户的浏览历史、兴趣和行为数据进行定制，以提高用户的点击率和转化率。搜索广告搜索广告（Search Ads）：这类广告通常出现在搜索引擎的搜索结果页面上，与用户的搜索关键词相关联。显示广告显示广告（Display Ads）：这

2023-03-24 11:49:37 613

原创计算广告（一）

这个指标常用于评估基于实际销售效果的广告费用，而不是仅基于点击次数（CPC，Cost Per Click）、展示次数（CPM，Cost Per Mille）或目标行动完成次数（CPA，Cost Per Action）的广告费用。这个指标常用于评估以注册为目标的广告活动的成本效益，而不是仅基于点击次数（CPC，Cost Per Click）、展示次数（CPM，Cost Per Mille）或其他目标行动（如 CPA，Cost Per Action）的广告费用。广告库存是指平台上可用于投放广告的广告位数量。

2023-03-21 22:59:38 5900

原创搜索系统（二）

BERT这个模型训练的主要瓶颈在于模型过大，就算是BERT-base也是相当巨无霸的模型，训练的大量时间耗费在参数和梯度的同步上面，这是这篇ALBERT的主要着重点，减少参数。我们可以很自然的看到，一篇文章通常是由多个主题构成的，而每一个主题大概可以用与该主题相关的频率最高的一些词来描述。这样，我只需要做，来了一个query，快速的把当前的query encode 一个n维的向量，离线把doc侧encode成一个n维的向量，那么就可以借助knn(query_encode, doc_encode)，

2023-03-21 18:38:15 661

转载简明 jieba 中文分词教程

【全模式】：人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ /目前在建吉林欧亚城市商业综合体项目。【搜索引擎模式】：他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ，/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作。

2023-03-21 08:16:42 2008

原创搜索系统（一）

如果整体策略对于不可省词的识别有误，将会对召回造成极大的伤害，例如 “澳大利亚xx村庄大火”，如果不可省词是“澳大利亚 xx村庄大火”，有可能损失 “澳大利亚大火”的好结果，因此我们在查询变换链条的最后一个环节，会有激进省词的逻辑，激进省词诉求是尝试更多的“不可省词”组合，试图召回几条好结果。词的变形问题：汉语中的动词和形容词有些可以产生变形结构，如“打牌”、“开心”、“看见”、“相信”可能变形成“打打牌”、“开开心”、“看没看见”、“相不相信”等，它们可以被切出“打打/牌”，但“开开/心”就不合理；

2023-03-20 23:02:10 1764

原创大数据源码复习图

大数据源码复习图，理清大数据组件源码

2023-03-08 20:00:47 139

原创数据指标简介

1.1 什么是数据指标数据指标概念：可将某个事件量化，且可形成数字，来衡量目标。数据指标的作用：当我们确定下来一套指标，就可以用指标来衡量业务，判断业务好坏 1.2 常用的业务指标活跃用户指标：一个产品是否成功，如果只看一个指标，那么这个指标一定是活跃用户数日活（DAU）：一天内日均活跃设备数月活（MAU）：一个月内的活跃设备数周活跃数（WAU）：一周内活跃设备数活跃度（DAU/MAU）：体现用户的总体粘度，衡

2022-05-11 10:34:28 2735

转载【Flink】第九篇：Flink SQL 性能优化实战

【Flink】第九篇：Flink SQL 性能优化实战Flink2022-04-11 08:00以下文章来源于章鱼沉思录，作者章鱼（Carl）章鱼沉思录.生命以负熵为食缘起最近我们组在大规模上线Flink SQL作业。首先，在进行跑批量初始化完历史数据后，剩下的就是消费Kafka历史数据进行追数了。但是发现某些作业的追数过程十分缓慢，要运行一晚上甚至三四天才能追上最新数据。由于是实时数仓指标计算上线初期，经常验证作业如果有问题就得重蹈覆辙重新追数，效率很低，于是我..

2022-04-12 09:40:18 2419

原创 Flink 常见问题排查与任务调优实践

Flink 问题排查 - 作业部署失败现象：作业无法正常提交与启动可能成因确认方法解决措施程序包依赖与集群依赖存在版本冲突日志：NoSuchMethodError/ IncompatibleClassChangeError/ ClassCastException 1.程序包中Flink/Hadoop相关依赖设为provided2.使用...

2021-12-11 08:36:51 4153 1

原创 Flink1.12 flink-conf.yaml配置

1.配置及注释1.1定位flink-conf.yaml是flink的配置文件，优先级在代码和提交参数之后是通用配置1.2注意点flink-conf.yaml中配置key/value时候在“:”后面需要有一个空格，否则配置不会生效。1.3参数解析#==============================================================================# 集群通用配置#==============================

2021-11-24 09:25:45 6911

转载大数据开源框架技术汇总

目录系统平台（Hadoop、CDH、HDP）监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）文件系统（HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio）资源调度（YARN、Mesos、）协调框架（ZooKeeper 、Etcd、Consul）数据存储（HBase、Cassandra、ScyllaDB 、MongoDB、Accumu...

2021-11-24 08:40:49 977

原创 ClickHouse概述

ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。ClickHouse是一个完全的列式分布式数据库管理系统，允许在运行时创建表和数据库，加载数据和运行查询，而无需重新配置和重新启动服务器，支持线性扩展，简单方便，高可靠性，容错。它在大数据领域

2021-11-21 18:04:33 2526

转载 FLINK源码

Flink 1.12.2 源码浅析 : 目录汇总 [持续更新中....]_张伯毅的专栏-CSDN博客

2021-11-11 09:21:36 401

启动集群相关命令.txt

Multi-Agent Cooperative Bidding Games for Multi-Objective

Exploration in Online Advertising Systems with

We Know What You Want An Advertising Strategy

Real Negatives Matter Continuous Training with Real Negatives

flink-connector-redis_2.11-1.1-SNAPSHOT.jar

线性代数的几何意义.doc

人工智能机器学习必备数学知识0604 .doc

java一表对应多表增删改查