机器学习
文章平均质量分 88
蓝色仙女
各平台同名,博客主要涉及:算法,python,MindSpore和一些通用计算机知识
展开
-
深度学习中BN(Batch Normalization)的原理详解
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码原创 2021-05-02 16:02:36 · 2096 阅读 · 0 评论 -
最全PR曲线、ROC曲线以及AUC计算公式详解
评价指标系列PR曲线查准率和查全率PR曲线绘制ROC曲线TPR,FPR插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入PR曲线AUC就是衡量学习器优劣的一种性能指标。从定义可知,AUC可通过对ROC曲线下各部分的面积求和而得。查准率和查全率查准率,表示所有被预测为正类的样本(TP+F原创 2021-04-19 15:20:23 · 13494 阅读 · 4 评论 -
L1 L2正则化原理-算法岗面试必问
正则化定义正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模型复杂度,减小过拟合。最基本的正则化方法是在原目标(代价)函数 中添加惩罚项,对复杂度高的模型进行“惩罚”正则化之基于约束优化对于模型权重系数www求解是通过最小化目标函数实现的,即求解:minwJ(w,X,y)\mathop{min}\limits_w J(w,X,y)wminJ(w,X,y)随着训练进行,模型复杂度会增加,可能会导致过拟合,为了限制模型复杂度,提出正则化。因此,为了限制模型的复杂度原创 2021-09-04 15:46:53 · 266 阅读 · 0 评论 -
阿里入门推荐系统新闻推荐学习记录
赛题理解数据:用户点击日志数据新闻的embedding向量数据36万篇文章,20万用户目的:预测用户未来的点击因此, 将日志中最后一次点击作为预测结果,历史点击作为训练数据。数据分析训练集里面每个用户至少点击了两篇文章多路召回ItemCF首先生成一个用户->点击文章列表的字典,用户为key,点击文章列表为value对每个用户,对其点击列表进行遍历:如果两个文章同时出现在这个列表,则计数加一,最后每两个文章A,B之间的相似性为:count(A,B)count(A).原创 2021-08-18 10:57:52 · 96 阅读 · 0 评论 -
FM与DeepFM,FFM详解
FM(因子分解机)优点:能在稀疏特征情况下有很好的表现时间复杂度O(n)在推荐场景使用one-hot编码会导致稀疏特征FM背景线性回归:Y=WTXY=W^{T}XY=WTX 只有一次项,但是一次项有时候效果不好,尤其是在特别稀疏的场景当中,刻画能力不够。如果加入二次项:y^=w0+∑wixi+∑∑wijxixj\hat{y}=w_0+\sum{w_i}x_i+\sum\sum{w_{ij}x_ix_j}y^=w0+∑wixi+∑∑wijxixj这里两两特征组合的特征量级原创 2021-08-08 20:56:15 · 566 阅读 · 0 评论 -
YoutubeDNN详解
YoutubeDNN背景Youtube2016年发表的深度推荐系统论文《Deep Neural Networks for YouTube Recommendations》,这篇文章是工程向导的。算法的整体架构也是召回➕精排召回部分从图中看出在网络结构方面YoutubeDNN并没有做什么创新,他的创新点在于:架构图的左上角,为了加快召回的速度,根据User embedding和item imbedding使用nearest neighbor search 的方法召回在softmax采用负采样原创 2021-08-08 20:35:38 · 2054 阅读 · 0 评论 -
GBDT原理以及与XGBoost,LightGBM的详细对比
梯度提升算法(Gradient Boosting)基本原理:根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。GBDTGBDT就是以决策树CART为弱分类器的梯度提升算法算法过程:给定训练集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}初始化第一个弱学习器F0(x)F_0(原创 2021-08-08 12:04:15 · 757 阅读 · 0 评论 -
决策树算法原理,剪枝详解
背景决策树是一种可以用于分类和回归任务的算法。它可以被认为是一个if-then规则的集合。本博客主要介绍三种决策树模型:ID3,C4.5,CART决策树由两种类型的节点构成:内部节点代表特征,叶结点代表一个类或者一个回归值。原理特征选择直观上,需要选择分类能力好的特征,信息增益能够很好的表示这一只管准则。信息增益熵熵(entropy)是表示随机变量不确定性的度量,设X是一个离散随机变量,概率分布为P(X=xi)=pi,i=1,2,...,nP(X=x_i)=p_i, i=1,2,...,原创 2021-06-19 20:12:59 · 382 阅读 · 0 评论 -
最全朴素贝叶斯算法原理详解及python代码实现
背景朴素贝叶斯是一种分类算法,基于贝叶斯定理,是一种生成模型。补充:生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布P(y|x),能够学习到数据生成的机制。分类方法中生成模型的代表就是朴素贝叶斯算法,参考 [此处]。(https://www.zhihu.com/question/20446337)优势:(1)生成给出的是联合分布,不仅能够由联合分布计算条件分布,还可以给出其他信息,比如可以使用来计算边缘分布。如果一个输入样本的边缘分布很小的话,那么可原创 2021-05-22 22:03:47 · 1777 阅读 · 0 评论 -
机器学习-最全LR逻辑回归原理以及python代码实现
简介逻辑回归是一种分类模型,多用于二分类,以下讨论二分类情况。逻辑回归是一种广义线性回归模型,它与传统线性回归的区别是,传统线性回归直接将wx+bwx+bwx+b作为因变量,而逻辑回归将wx+bwx+bwx+b用Sigmoid后激活的值作为因变量,可以将线性函数转化为概率:P(y=1∣x)=11+exp[−(wx+b)](1) P(y=1|x)=\frac{1}{1+exp[-(wx+b)]} \qquad (1)P(y=1∣x)=1+exp[−(wx+b)]1(1)即P(y=1∣x)=exp(原创 2021-05-18 16:43:04 · 803 阅读 · 0 评论