凝眸伏笔-CSDN博客

原创模型评估指标pcoc

今天看到一个广告的精排和重排的文章，里面有了一个pcoc的指标，跟auc并排，这个指标，第一次见，查查相关资料，记录下笔记。众所周知，在推荐系统中，很多情况下，我们的点击率通常会被错误的估计(通常会被高估)，所以需要进行校准。先说下业务背景随着深度学习技术的发展，预估模型在过去几年中也经历了快速的迭代，不断向更庞大、更精细、更准确的方向演进。但是预估模型真的变得更准确了吗？不失一般性，我们以计算广告中的点击率预估模型为例，思考以下几个问题：1）点击率是指“用户在某个时刻对曝光广告进行点击的概率”

2024-05-20 22:31:09 825

原创【LLM第五篇】名词解释：prompt

（prompt就是怎么用大模型，给大模型说，我们想要什么，将我们的想法转化成大模型可以“认识的语言”，然后返回给我们结果。您可以从简单的提示开始，随着您的目标是获得更好的结果，不断添加更多的元素和上下文。在上面关于详细和格式改进的提示中，很容易陷入想要过于聪明的提示陷阱，从而可能创建不精确的描述。当您有一个涉及许多不同子任务的大任务时，您可以尝试将任务分解为更简单的子任务，并随着获得更好的结果而不断构建。您可以将其与少样本提示相结合，以获得更好的结果，以便在回答之前进行推理的更复杂的任务。

2024-05-14 23:04:34 793

原创【LLM第四篇】名词解释：SFT

SFT的流程包括数据生产、模型选型、模型微调、效果验证几个环节，每一步都存在相应的技术挑战：（1）

2024-05-07 01:39:36 857

原创【LLM第三篇】名词解释：RLHF——chatgpt的功臣

RLHF (Reinforcement Learning from Human Feedback) ，直译为：“来自人类反馈的强化学习”。RLHF是一种结合了强化学习和人类反馈的机器学习方法，主要用于训练大模型以执行复杂的任务，尤其是当这些任务难以通过传统的奖励函数来精确定义时。

2024-05-05 23:23:54 433

原创【LLM第二篇】stable diffusion扩散模型、名词解释

最近在整理大模型的相关资料，发现了几个名词，不是很懂，这里整理一下：扩散模型（Diffusion model）的一种，主要用于生成高质量的图像，DAN的替代者，扩散模型通过一些列学习步骤生成数据，逐渐从噪声中生成目标图像。扩散模型主要分成两个阶段：前向过程（forward process) 和反向过程（reverse process）1.前向过程（noise adding process）：在这个过程中，模型逐步将高质量的图像添加噪声，直到图像完全变成噪声。这是一个可控的Markov链过程，也就是说图像经过

2024-05-04 17:12:15 1189 3

原创【LLM第一篇】Lora原理

自然语言处理的一个重要范例包括：对通用领域数据的大规模预训练以及对特定任务或领域的应用。当预训练更大的模型时，重新训练所有模型参数的全面微调变得不太可行。以 GPT-3 175B 为例——部署微调模型的独立实例，每个实例都有 175B 参数，这资源消耗的代价令人望而却步。本文提出了低秩适应（LoRA），它冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中，大大减少了下游任务的可训练参数的数量。

2024-05-04 11:38:24 742

原创【模型可解释性系列一】树模型-拿到特征重要度-打印关键因素

接下来一段时间内，会主要介绍下模型可解释性方向的一些常用方法。模型可解释性：主要用来解释为什么这个样本的特征是这样的时候，模型结果是那样。面向老板汇报工作(尤其是不懂算法的老板)和业务方。

2023-12-05 23:36:05 764

原创【聚类】K-modes和K-prototypes——适合离散数据的聚类方法

两个新的聚类方法：K-modes和K-prototypes。下面分别介绍下两个方法。K-modes适用于离散数据，采用汉明距离K-modes算法是按照k-means算法的核心内容进行修改，主要有以下两点：1.度量方式。2.更新modes.K-prototypes适用于混合数据（有离散有连续）K-Prototype算法是结合K-Means与K-modes算法，针对混合属性.

2023-12-05 23:06:46 2843

原创 NPCon2023 AI模型技术与应用峰会：参后感

Dify.AI的创始人张路宇为大家解读了LLM（Language Model）的技术栈以及Agent全景。他的分享更加深入地阐述了企业服务和SaaS领域的最新发展趋势和面临的挑战，使听众对这一领域有了更清晰的了解。学如逆水行舟不进则退。很久没有认真学过东西，没有写博客了，继续总结，写起来！

2023-08-15 21:52:21 649

原创 TypeError: unsupported operand type(s) for -: ‘str‘ and ‘float‘

划重点，终于知道了【for -:】是什么意思，就是在减号处，出现了类型不匹配的问题，想修复问题，就去减号附近看看有没有涉及到不同类型计算的。这个错误的意思：类型有错误，不能将str和float类型的数据进行相减‘-’。删除数据中的异常值。

2022-12-30 15:34:42 13663 1

原创论文阅读|Embedding-based Retrieval in Facebook Search

本文有一些经验值得借鉴和思考，但比起结论更重要的是思维的方法，比如为什么要做hard mining，自己的场景哪些数据值得hard mining，自己系统中召回问题最关键的是样本、架构还是数据流，只有先定义了问题才能做ROI最高的优化。

2022-12-13 22:49:35 1013 1

原创 MAE vs RMSE 如何通俗的比较两个度量

平均绝对误差MAE（mean absolute error）和均方根误差 RMSE（root mean squared error)是衡量变量精度的两个最常用的指标，同时也是机器学习中评价模型的两把重要标尺。那两者之间的差异在哪里？它对我们的生活有什么启示？平均绝对误差MAE（mean absolute error）是绝对误差的平均值，它其实是更一般形式的误差平均值。因为如果误差是[-1,0,1],平均值就是0，但这并不意味之系统不存在误差，只是正负相互抵消了，因此我们要加上绝对值。它的定义表达式为：换

2022-12-07 15:28:45 1514

原创论文笔记|DeepWalk

简介DeepWalk是由，和在2014年提出的，它是一种基于图的无监督特征学习方法，它有趣的点是将文本处理任务中词向量的处理思想迁移到了图特征学习上，就像处理句子得到word embedding一样，通过处理由网络中节点组成的序列从而得到Node embedding，算是图特征学习的开山之作。示例的输入是一个网络，输出是图中每个节点的二维向量，DeepWalk通过截断随即游走学习出一个网络的社会表示，从两张图的对比也可以发现，越是在网络中拓扑结构相近的点，其对应的二维向量在二维空间上的距离越近。文章中提出

2022-12-07 11:43:46 695 1

原创 IV (information value)信息价值

IV 全拼 information value，即信息价值，是衡量特征对于模型预测能力的指标，常用于入模训练前的特征筛选的参考依据。IV 可由 WOE 计算得到:整个特征的 IV 值则为每段 IV 值之和，可得:当特征的 IV 值越大，该特征的信息价值就越大，对于判断客户好坏的贡献越大，这样的特征越适合入模。我们通常以 IV 来作为判断特征对于模型的预测能力的指标，因为 WOE 有正负值，而 IV 只会是正值。最重要的是，WOE 值没有体现出当前分段的个体数在总体数量中的比例，举个例子，若某个分段的 WO

2022-12-06 00:06:29 1889

原创 WOE(Weight of Evidence)证据权重

WOE 全拼 Weight of Evidence，即证据权重，用于风险评估、授信评分卡等。 i表示第i分段。也可转换后得到.从上公式可知，WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大，差异越大，好用户的可能性越大。同时 WOE 变换常应用于特征工程，当我们对某些特征变量进行等频或等距等分箱后发现，发现每级分段 WOE 不满足单调性时（大部分为离散型变量），进行 WOE 变换，即采用对应每分段的 WOE 值替换掉特征原始值，此时该

2022-12-06 00:02:14 1430

原创区分度评估指标-KS

KS指标来评估模型的区分度（discrimination），风控场景常用指标之一。本文将从区分度的概念、KS的计算方法、业务指导意义、几何解释、数学思想等多个维度展开分析，以期对KS指标有更为深入的理解认知。在探索性数据分析（EDA）中，若想大致判断自变量x对于因变量y有没有区分度，我们常会分正负样本群体来观察该变量的分布差异，如图1所示。那么，如何判断自变量是有用的？直观理解，如果这两个分布的重叠部分越小，代表正负样本的差异性越大，自变量就能把正负样本更好地区分开。图 1 - 正负样本变量分布差异对比K

2022-12-05 23:51:41 3391

原创分类问题：AUC小于0.5的原因及解决方案

当数据集中某一类的样本数量远超于其他样本的时候，模型自然会有一种倾向使得分类结果偏向于该类样本，这是概率统计中先验的性质。第二种，解决样本分布不均衡，我们可以在分类错误时通过对不同类别的样本施加不同的惩罚，比如对数量少的类别的样本施加较小的惩罚，对数量多的类别的样本施加较大的惩罚。第一种，我们可以通过采样的方式，手动的平衡不同类别的样本的数量，主要的手法有欠采样和重采样。当原始数据的量纲相差过大，而标签中“0”的过多时，训练出的模型系数会倾向于稀疏。在做分类任务时，遇到过auc小于0.5的情况。

2022-11-03 20:41:46 7805

原创 pandas dataframe获取列名、添加列名、列索引

pandas dataframe获取列名、添加列名、列索引

2022-10-27 16:11:11 20942

原创聚类的方法、原理以及一般过程

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。聚类和分类的区别聚类(Clustering)：是指把相似的数据划分到一起，具体划分的时候并不关心这一类的标签，目标就是把相似的数据聚合到一起，聚类是一种无监督学习(Unsupervised Learning)方法。分类(Classification)...

2022-08-27 21:45:46 23248

原创【LeetCode】字节面试-行、列递增的二维数组数字查找

以测试题为例：选取matrix左下角那个数18为起点，18 > 5说明target一定在数组的上方、故上移一行到10，同理直到 3 < 5说明target一定在该数右边、故右移一列到6，以此类推，直到找到target，若超出数组范围还没找到则返回False。由于数组是按序排列的，因此我们可以灵活的找到以一个数位起点，如target大于或小于该数，则查找范围减少一行或者一列。时间复杂度：O(n+m)。访问到的下标的行最多增加 n 次，列最多减少 m 次，因此循环体最多执行 n + m 次。

2022-08-21 22:55:25 1467

原创【LeetCode】货拉拉面试-判断链表是否为回文链表-快慢指针

我们可以将链表的后半部分反转（修改链表结构），然后将前半部分和后半部分进行比较。我们也可以使用快慢指针在一次遍历中找到：慢指针一次走一步，快指针一次走两步，快慢指针同时出发。当快指针移动到链表的末尾时，慢指针恰好到链表的中间。通过慢指针将链表分为两部分。该方法虽然可以将空间复杂度降到 O(1)，但是在并发环境下，该方法也有缺点。在并发环境下，函数运行时需要锁定其他线程或进程对链表的访问，因为在函数执行过程中链表会被修改。执行步骤一，我们可以计算链表节点的数量，然后遍历链表找到前半部分的尾节点。...

2022-08-13 14:56:49 181

原创【LeetCode】陌陌面试-有序数组于其一个元素翻转后，判断一个数是否存在数组中，时间复杂度O(logn)

对于无重复的数组[6, 7, 8, 10,1, 2, 3, 4]，如果满足 A[begin]

2022-08-13 14:45:13 393

原创【LeetCode】金山面试-二分法计算整数的平方根-数组不连续元素的最大和

先去前[0,n-1]个数的最大值，然后再取[1,n]的最大值，最后取两种方式取得的最大值的最大值，作为结果返回。给定一个非负整数 x ，计算并返回 x 的平方根，即实现 int sqrt(int x) 函数。如果平方根不是整数，输出只保留整数的部分，小数部分将被舍去。二分法，时间复杂度O(logn)，空间复杂度O(1)正数的平方根有两个，只输出其中的正数平方根。取若干个元素，使其和最大，且不能取连续的数。给定一个正整数数组，......

2022-08-13 13:16:43 209

原创【快手面试】Word2vect生成的向量，为什么可以计算相似度，相似度有什么意义？

二面面试官问题：Word2vect生成的向量，为什么可以计算相似度，相似度有什么意义？答案分析：term在相同的前后文中，认为两个term是等价的，它们学到的向量也更接近，所以item的向量计算相似度，表示两个向量的相似程度，也即是是否等价。...

2022-08-02 22:51:06 537

原创【字节面试】word2vector输出多少个类别

这个问题，其实想问，有多少个item，只不过面试官稍微的那啥了一些，于是就出现了【word2vector输出多少个类别】这样一个问题。答案：有多少个item ，word2vector的输出类别就有多少个。

2022-08-02 22:37:09 353

原创 AUC的两种计算方式

推荐搜索场景下的auc理解_凝眸伏笔的博客-CSDN博客_搜索auc随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测，预测得到正样本的概率大于负样本概率的概率。TPRate的意义是所有真实类别为1的样本中，预测类别为1的比例。：真正率FPRate的意义是所有真实类别为0的样本中，预测类别为1的比例。：假正率AUC的优势:AUC的计算方法同时考虑了分类器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器作出合理的评价。...

2022-08-02 21:31:00 21043 1

原创【LeetCode】zj面试-把字符串转换成整数

在每轮数字拼接前，判断resres在此轮拼接后是否超过21474836472147483647，若超过则加上符号位直接返回。写一个函数StrToInt，实现把字符串转换成整数这个功能。不能使用atoi或者其他类似的库函数。...

2022-07-28 15:11:42 190

原创【LeetCode】老虎证券面试-括号嵌套且满足优先级

给定一个只包括'('，')'，'{'，'}'，'['，']'的字符串s，判断字符串是否有效。用栈的形式存储右括号，

2022-07-27 22:29:52 214

原创 MetaApp开发面试题目【LeetCode】

1.特例处理当树的根节点为空，则直接返回空列表[]；2.初始化打印结果空列表res，包含根节点的双端队列deque；3.BFS循环当deque为空时跳出；新建列表tmp，用于临时存储当前层打印结果；当前层打印循环循环次数为当前层节点数（即deque长度）；出队队首元素出队，记为node；打印若为奇数层，将node.val添加至tmp尾部；否则，添加至tmp头部；添加子节点若node的左（右）子节点不为空，则加入deque；......

2022-07-17 19:09:37 1010

原创 TensorFlow：Allocation of 256000000 exceeds 10% of system memory对auc的影响

我在原来特征基础上，增加了一列特征，这列特征是一个list，长度不固定[0，5]之间的一个长度，比如样本 1： ['找工作', '发工资', '领导力']代码中给该列特征先做了一个分桶，根据该列特征中词的个数，来确定桶的大小；我这里大约2k个不同的词，hash_bucket_size=2e3；然后做tf.feature_column.embedding_column(feat, 8)；这个8怎么确定？2000开两次根号，等于6.7，向上取整得到 7，因为这样不会造成词重叠，但是会造成一些参数浪费；至于效果

2022-06-06 20:42:17 1095 2

基于稀疏表示的微血管瘤识别开题答辩ppt

光流法基本概念介绍

空空如也