机器学习
文章平均质量分 90
长相忆兮长相忆
一个爱生活爱学习的小学生。
展开
-
【推荐算法】MMoE模型:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
MMoE是谷歌在2018年发表在KDD上的一篇基于多任务学习的经典论文,其使用场景是对不相关任务的多任务学习。在推荐系统中,这些不相关的任务可以示例为:视频流推荐中的CTR、时长、点赞、分享、收藏、评论等相关性不强的多个任务。原创 2022-12-22 20:49:34 · 2799 阅读 · 1 评论 -
【机器学习】Reinforcement Learning-强化学习学习笔记
强化学习(Reinforcement Learning, RL),又称增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。...原创 2022-01-28 17:40:19 · 3428 阅读 · 0 评论 -
【推荐算法】DSSM双塔模型:Deep Structured Semantic Models for Web Search using Clickthrough Data
DSSM,全称Deep Structured Semantic Model,就是我们通常所说的双塔模型,是微软公司提出的一种基于深度网络的语义模型,其核心思想是将query和doc映射到到共同维度的语义空间中,通过最大化query和doc语义向量之间的余弦相似度,从而训练得到隐含语义模型,达到检索的目的。DSSM有很广泛的应用,比如:搜索引擎检索,广告相关性,问答系统,机器翻译等。原创 2021-06-17 11:27:45 · 5293 阅读 · 1 评论 -
【推荐算法】DeepFM模型:A Factorization-Machine based Neural Network for CTR Prediction
DeepFM模型是由哈尔滨工业大学和华为实验室联合提出的,将FM模型结构与Wide&Deep模型进行了融合。DeepFM可以同时提取低阶组合特征与高阶组合特征。其中,FM模型负责提取一阶特征以及两两交叉特征;DNN模型负责提取高阶特征。相比于谷歌最新的Wide&Deep模型,DeepFM模型的Deep component和FM component从Embedding层共享数据输入,同时不需要专门的特征工程,在推荐系统中取得了不错的推荐效果。原创 2021-06-03 14:51:03 · 2542 阅读 · 3 评论 -
【Algorithm】经典的最长序列算法综述
1、最长公共子序列LCS(longest common sequence)2、最长递增子序列LIS(longest increasing subsequence)原创 2021-06-01 11:17:50 · 771 阅读 · 1 评论 -
【推荐算法】FM模型:Factorization Machines
FM算法是一种基于矩阵分解的机器学习算法,是为了解决大规模稀疏数据中的特征组合问题。在传统的线性模型如LR中,每个特征都是独立的,如果需要考虑特征与特征之间的交互作用,可能需要人工对特征进行交叉组合;非线性SVM可以对特征进行kernel映射,但是在特征高度稀疏的情况下,并不能很好地进行学习;现在也有很多分解模型Factorization Model如矩阵分解MF、SVD++等,这些模型可以学习到特征之间的交互隐藏关系,但基本上每个模型都只适用于特定的输入和场景。为此,FM出现了。原创 2021-05-17 11:41:09 · 4286 阅读 · 3 评论 -
【机器学习】推荐系统、机器学习面试题整理
推荐系统、机器学习常见面试题整理。原创 2021-05-10 23:18:50 · 2442 阅读 · 0 评论 -
【Algorithm】彻底解释三种背包问题
背包问题背包问题是一类经典的动态规划问题,本文先对背包问题的几种常见类型作一个总结,期望可以用一套框架解决背包问题。这里先简单说说动态规划。动态规划与分治法类似,都是把大问题拆分成小问题,通过寻找大问题与小问题的递推关系,解决一个个小问题,最终达到解决原问题的效果。但不同的是,分治法在子问题和子子问题等上被重复计算了很多次,而动态规划则具有记忆性,通过填写表把所有已经解决的子问题答案纪录下来,在新问题里需要用到的子问题可以直接提取,避免了重复计算,从而节约了时间,所以在问题满足最优性原理之后,用原创 2021-05-10 15:19:51 · 684 阅读 · 0 评论 -
【推荐系统】推荐系统中一些常用的技术方法
本文主要总结了一些推荐系统中用来解决实际问题常用的技术方法。1、威尔逊区间平滑威尔逊区间平滑可以用来修正item的点击率CTR。Click-Through-Rate,即点击率,是推荐系统中一项重要的衡量指标。原始的CTR计算公式:CTR = 点击数 / 曝光数。这样的计算方式只考虑了相对值,没有考虑绝对值,即没有考虑曝光的数值大小。因为,在曝光很少的情况下,计算出的CTR并不真实可靠,而样本数越大,CTR的比例才越准确,更能反应真实情况。举个例子,有三个广告:A:点击数5...原创 2021-04-29 11:31:44 · 2566 阅读 · 0 评论 -
【推荐系统】短视频推荐系统概述
本博文主要对业界短视频推荐领域做一个系统概览,包括推荐系统与架构、召回算法与策略、排序算法的演进、分发策略的控制四大部分。原创 2020-09-17 20:45:11 · 7372 阅读 · 2 评论 -
【机器学习】word2vec学习笔记(三):word2vec源码注释
本文主要是对Google的word2vec源码进行了一些简单的注释,希望能够帮助对源码的学习与理解。原创 2020-08-02 17:11:35 · 319 阅读 · 0 评论 -
【机器学习】word2vec学习笔记(二):word2vec-tool
本文主要介绍Google官网提供的word2vec工具:word2vec,计算词的连续分布表示的工具。本文并不涉及word2vec算法的原理与细节,只是简单的介绍了word2vec这个工具及一些在实践中的表现等。word2vec工具提供了CBOW模型和skip-gram模型计算词的向量表示的有效实现。这些表示能够随后应用在后期的NLP应用和进一步研究中。原创 2020-07-31 11:38:48 · 561 阅读 · 0 评论 -
【机器学习】从GB到GBDT再到XGBOOST算法解析
Part1:GBPart2:GBDTPart3:XGBOOST1、监督学习的主要概念回顾:第i个训练样本:模型的目的:根据给定的预测 参数:需要从数据集中学到的东西,如线性模型的参数集为:目标函数目标函数=训练损失+正则项,公式化表示为:obj(θ)=L(θ)+Ω(θ),其中,目标函数为obj(θ),用来衡量模型训练的整体目标;训练损失为L(θ),用来...原创 2019-03-25 15:58:19 · 787 阅读 · 0 评论 -
【机器学习】word2vec学习笔记(一):word2vec源码解析
本文主要对google的word2vec源码进行了简要的分析,并给出了源码的一些注释。对于word2vec的算法原理并没有进行深入的讨论。原创 2019-04-30 20:36:23 · 1400 阅读 · 0 评论 -
【Linux】Linux服务器安装cmake/gcc/xgboost
1、xgboost安装前的准备(1)xgboost依赖需求:The minimal building requirement is:A recent C++ compiler supporting C++11 (g++-4.8 or higher)CMake 3.2 or higher(2)查看当前gcc、cmake版本:gcc --versioncmake --vers...原创 2019-07-25 17:32:19 · 1413 阅读 · 0 评论 -
【C++】Keans聚类算法的C++实现
Kmeans算法的实现步骤: 1、从D中随机取k个元素,作为k个簇的各自的中心。 2、分别计算剩下的元素到k个簇中心的相异度(元素到簇中心的欧氏距离),将这些元素分别划归到相异度最低的簇。 3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。 4、将D中全部元素按照新的中心重新聚类。 5、重复第4步,直到聚类结果不再变化。 6、将结果输出。inclu转载 2017-02-25 20:54:04 · 1413 阅读 · 0 评论