![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 92
莫彩
首先是一个人,然后是一个程序员
展开
-
LTR入门:从 Ranknet 到 LambdaMart 原理与 lgb 实战
我们的任务是这样的:有一堆搜索引擎拿到的 query,我们标注了他们对购买商品的需求等级,即这个 query 的搜索者有多希望看到搜索结果里出现电商或者直播等内容来满足购买需求,我们希望搞一个 rank 任务来学习这个任务。doc 的特征以数值类特征为主,我们使用 lightgbm 来完成这个任务。原创 2023-01-09 01:01:51 · 1605 阅读 · 0 评论 -
理解 ROC 和 PRC
前两天看到了一篇关于 ROC 的推送文章,突然发现这块上学时的知识已经逐渐开始忘却了,顺便复习一下这部分知识顺手记录下来。原创 2022-11-24 23:45:35 · 1395 阅读 · 0 评论 -
RL 从敲门到入门
回报(其中R的单步奖励、gamma是折扣系数,表示有多重视未来的收益):价值函数 v:表示一个状态下期望获得的总收益。动作价值函数 q:表示一个状态下采取动作 a 期望获得的总收益。回溯图:贝尔曼方程:策略p(a|s) 和 环境动态特性 p(s’,r|s,a)举例子:其中 s到sa节点是依据策略决定的;sa到s是依据环境决定的。我们要学习的是策略。原创 2022-11-16 12:07:03 · 674 阅读 · 0 评论 -
分享:互信息在对比学习中的应用
对比学习常见的loss,但是为什么是这样?比如softmax或者lr这样的模型,其问题假设与目标存在清晰的推导关系。即,为什么使用这样的激活,这样的loss函数,最终我们都能在GLM理论中找到依据。正例比较近,负例比较远,那这个呢(refer DGI;2019 ICLR)?原创 2022-11-13 20:35:31 · 2262 阅读 · 0 评论 -
On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models笔记
对于工业规模的广告系统来说,广告点击率(CTR)的预测是一个核心问题。广告点击率构成了用户参与的一个重要类别,并经常被用作广告对用户有用性的主要信号。此外,在按点击率收费的广告系统中,广告商按点击率收费,点击率预期直接反馈到价值评估中。因此,对于大多数互联网广告公司来说,点击率模型的开发是一项重大投资。针对这些问题的工程需要许多适合在线学习的机器学习(ML)技术,这些技术远远超出了传统的准确性改进,特别是关于效率、可重复性、校准和信用归属。我们提出了一个部署在谷歌搜索广告CTR模型中的实用技术的案例研究。原创 2022-11-13 14:04:18 · 408 阅读 · 0 评论 -
Perameter estimation for text analyse (下)
潜在Dirichlet分配(LDA)是一种概率生成模型,可用于通过无监督学习来估计多项式观测的性质。关于文本建模,LDA是一种执行所谓的潜在语义分析(LSA)的方法。 LSA背后的直觉是在文本语料库中找到“主题”或“概念”的潜在结构,它捕获了被“单词选择”噪声所掩盖的文本的含义。LSA分析由Deerwester提出,Deerwester凭经验证明文本文档中术语的共现结构可用于恢复这种潜在的主题结构,特别是没有任何背景知识的使用。反过来,文本的潜在主题表示允许对同义词和多义词等语言现象进行建模。这允许信息检索原创 2022-11-05 00:23:21 · 477 阅读 · 0 评论 -
Parameter estimation for text analysis (上)
我们面临两个推论问题,(1)一组分布参数的估算值 θ 能最好的解释一组观察 X 和(2)在已有观测结果 X 的前提下,得到新观测 x~\tilde xx~ 的概率,即计算 P(x~∣X)P(\tilde x|X)P(x~∣X) 。我们将前一个问题称为估计问题,后一个问题称为预测或回归问题。数据集X可以看作是一个随机变量的独立的、同分布的(i.i.d)序列。参数θ是依赖于你所考虑的分布,对于高斯分布,θ={μ,σ}\theta=\{ \mu, \sigma \}θ={μ,σ}。对于这些数据和参数,贝叶斯统计中原创 2022-11-05 00:21:59 · 387 阅读 · 0 评论 -
Alias Method采样算法
采样的本质是随机现象的模型,根据给定的概率分布,来模拟产生一些随机时间。另一方面,采样得到的样本集也可以看作是是一种非参数模型。即用较少量的样本点(经验分布)来近似总体分布,并刻画总体分布中的不确定性。从这个角度来说,采样其实也是一种信息降维,可以起到简化问题的作用。对当前的数据集进行重采样,可以充分利用已有的数据集,挖掘更多信息,如Bootstrap法和jackknife法,通过对严格不能多次重采样来估计统计量的偏差、方差等。原创 2022-10-11 21:35:53 · 334 阅读 · 0 评论 -
形式语言与自动机基础
这个过程完成之后可以把所有的状态对标记为可区分或不可区分,由于不可区分是一种等价关系,具有传递性,所以不可区分关系可以完成对状态的划分。文法 G 的不含非终结符的句子形式称为 G 生成的句子。由文法 G 生成的语言,记作 L(G),指 G 生成的所有句子的集合。若 G 是一个正则文法, 则存在一个有限自动机nfa,使得:T(M) = L(G)。,这里的最小指的是它是所有接受L(M)的dfa中状态数最少的。定理:设L是正则语言,那么总存在正则表达式r使得L=L®。一些特殊类型的符号串为文法 G=(N,原创 2022-10-07 11:17:29 · 706 阅读 · 0 评论 -
采样算法小结
区间内进行均匀采样可以说是采样算法的基石,比如说逆变换采样就是针对CDF函数的值域上进行采样,对离散分布的轮盘赌算法同理是一种离散分布的逆变换采样,拒绝采样中判断对于一个采样是否被接受需要均匀采样,等等等等,不一而足。对于高斯分布,可以使用逆变换采样,但是高斯分布的CDF函数不容易表示,所以,一种常用的数学技巧就是使用二维高斯分布转换为极坐标表示,通常可以得到好的形式。上述是实用指数分布进行拒绝采样的过程,实际上有更为高效的针对高斯分布的拒绝采样方法,即Ziggurat方法,作为补充参考。原创 2022-10-07 11:04:51 · 949 阅读 · 0 评论 -
《这就是搜索引擎》——链接分析
常见的有两大类算法:链接分析和子集传播(作者自己提出的分类);前者最典型的是pr,后者典型的是hilltop和hits主流算法之间的演进关系。原创 2022-10-01 21:54:15 · 514 阅读 · 0 评论 -
快速平方根倒数计算
对于计算机中的数值计算来说,很多情况我们认为简单的运算对于计算机来说可能并没有那么简单。对于计算机体系结构和底层的实现,我了解的非常浅薄,这里只是为了引出Q_rsqrt算法谈谈自己的理解。首先可以知道的是,目前来说,对于加法和移位,计算机可以高效的完成,因为这两种操作对于CPU的计算单元会有高效的硬件实现。对于减法同样可以以和加法差不多的指令周期内完成,因为数值在计算机内以补码形式形式存放,加法和减法的操作具有高度一致性。对于乘法来说,就要比加法慢上很多,因为乘法在计算机内是通过多次移位与相加组合完成的。原创 2022-09-16 23:27:30 · 648 阅读 · 0 评论 -
基数估计:FM算法
LogLog算法参考《大数据——互联网大规模数据挖掘与分布式处理一书》中所提到的FM算法,下面给出简单的python实现。代码中比较重要的就是testFM函数。重要的参数是each_group_k,表示了LogLog中用后多少位表示桶号,然后对所有元素求平均进行估计。group_num是参考《大数据》书上提到的中位数方法的小改进,就是不只是使用平均进行估计,而是使用不同的哈希函数LogLog算法重复多遍,然后每个LogLog算法内求平均,多个LogLog算法内求中位数。结果改进的并不多,索性直接用一组原创 2021-04-26 01:01:23 · 449 阅读 · 0 评论 -
浅析Bloom Filter与java实现
概述布隆过滤器实际上对外表现为一个set类型,可以实现添加元素/判断元素是否存在/并集等操作。需要注意的是布隆过滤器不提供元素的删除功能,这一点特点使得他不能作为常规的集合类型使用,那么它的使用场景是保存大量固定元素的集合,并判断一个新到来的元素是否已经存在在这个集合中,s所谓“过滤器”也是因此得名。他以一定误报率(不在的元素判断为在)为代价,减少了大量存储空间。原理BF主要需要包含一个长度为m位的位图,和k个相互独立的哈希函数,哈希函数的值域在0到m-1之间。如果希望加入一个元素,那么将该元素输原创 2021-04-26 00:55:29 · 153 阅读 · 0 评论 -
EM算法原理与推导
layout: posttitle: EM算法原理与推导date: 2018-05-27category: 机器学习tags:generativealgorithmmathstoolsmachinelearningkeywords:description:EM算法Jensen不等式对于凸函数,有\(E[f(X)]\ge f(E[X])\)。如果\(f\)是一个严格凸函数,那么只有当\(X=E[x]\)成立的时候,Jensen不等式中的等号才会满足。向上图演示的一样,如.原创 2021-04-25 00:50:33 · 367 阅读 · 0 评论 -
Alias Method——高效的离散分布采样算法
文章目录一、采样方法二、轮盘赌算法三、Alias Method四、伪代码参考文献一、采样方法采样的本质是随机现象的模型,根据给定的概率分布,来模拟产生一些随机时间。另一方面,采样得到的样本集也可以看作是是一种非参数模型。即用较少量的样本点(经验分布)来近似总体分布,并刻画总体分布中的不确定性。从这个角度来说,采样其实也是一种信息降维,可以起到简化问题的作用。对当前的数据集进行重采样,可以充分...原创 2019-07-03 16:49:59 · 4015 阅读 · 0 评论 -
学习循环神经网络
RNN如果训练普通神经网络是对函数的优化,那么训练循环网络就是对程序的优化。简介从多层网络出发到循环网络,我们需要利用上世纪 80 年代机器学习和统计模型早期思想的优点:在模型的不同部分共享参数。参数共享使得模型能够扩展到不同形式的样本(这里指不同长度的样本)并进行泛化。如果我们在每个时间点都有一个单独的参数,我们不但不能泛化到训练时没有见过序列长度,也不能在时间上共享不同序列长度和不同...原创 2019-05-11 15:18:08 · 555 阅读 · 0 评论 -
Leetcode刷题笔记 —— TwoPointers
双指针问题真的大部分都是经典题型,看了大部分的题就是高赞题目。763. Patition Labels还算不错,需要遍历一遍拿到最右位置,然后是N的空间复杂度,N的时间复杂度。524. Longest Word in Dictionary through Deleting和703有一点像,需要先遍历一遍,这里需要存下一个字符出现的每一个位置。然后加了大量的trick。...原创 2018-09-07 22:34:03 · 265 阅读 · 0 评论