![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 90
transformer_WSZ
You Only Look Once!
展开
-
常见的相似性度量方法
有如下几种计算相似性方法:more。原创 2023-07-30 03:38:07 · 959 阅读 · 0 评论 -
FM & DeepFM
FM参数数量和时间复杂度优化当我们使用一阶原始特征和二阶组合特征来刻画样本的时候,会得到如下式子:y^=w0+∑i=1nwixi+∑i=1n−1∑j=i+1nwijxixj\hat{y}=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} w_{i j} x_{i} x_{j}y^=w0+i=1∑nwixi+i=1∑n−1j=i+1∑nwijxixjxix_ixi 和 xjx_jxj 分别表原创 2022-01-17 23:37:00 · 869 阅读 · 2 评论 -
分布式训练
在面试中,遇到有些面试官会问分布式训练的有关问题,在此总结一下。分布式训练的并行方式主要分如下两种:数据并行:将数据集切分放到各计算节点,每个计算节点的计算内容完全一致,并在多个计算节点之间传递模型参数。数据并行可以解决数据集过大无法在单机高效率训练的问题,也是工业生产中最常用的并行方法。模型并行:通常指将模型单个算子计算分治到多个硬件设备上并发计算,以达到计算单个算子计算速度的目的。一般会将单个算子的计算,利用模型并行的方式分配在配置相同的几个硬件上,进行模型存储和计算,以保证计算步调一致。这原创 2021-08-11 01:28:47 · 4710 阅读 · 0 评论 -
PCA & LDA
预备知识在统计学中,方差是用来度量单个随机变量的离散程度,而协方差则一般用来衡量两个随机变量的联合变化程度。方差σx2=1n−1∑i=1n(xi−xˉ)2\sigma_{x}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}σx2=n−11i=1∑n(xi−xˉ)2nnn 表示样本数量,xˉ\bar{x}xˉ 表示观测样本的均值。协方差σ(x,y)=1n−1∑i=1n(xi−xˉ)(yi−yˉ)\sigma原创 2021-08-02 21:03:00 · 200 阅读 · 0 评论 -
AdaBoost
OverviewAdaBoost算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2。如此重复进行,直到弱学习器数达到事先指定的数目 TTT ,最终将这 TTT 个弱学习器通过集合策略进行整合,得到最终的强学习器。AdaBoost分类算法流程输入样本集 T={(x,y1),(x2,y2),…(x原创 2021-07-11 23:58:58 · 175 阅读 · 0 评论 -
Bagging & RF
Bagging算法流程如下:从原始样本中使用Bootstraping方法有放回地随机抽取 nnn 个训练样本,共进行 kkk 轮抽取,得到 kkk 个训练集;对于 kkk 个训练集,分别训练出 kkk 个模型;在对预测输出进行结合时:分类:简单投票法回归:简单平均法RFRF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性时是在当前结点的属性集合(假设有 ddd 个属性)中选择一个最优属性;而在RF中,对基决原创 2021-07-11 22:17:35 · 171 阅读 · 0 评论 -
SVM常见面试问答
1. SVM原理SVM 是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即硬间隔支持向量机;当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。2. SVM为什么采用间隔最大化?唯一解:当训练数据线性可分时,存在无穷多个超平面可以将两类数据正确分开。线性可分支持向量利用间原创 2021-06-25 01:32:53 · 638 阅读 · 0 评论 -
XGBoost总结
示例我们要预测一家人对电子游戏的喜好程度,有年龄、性别、职业这些特征。根据之前训练出来的多棵树来对这些样本打分,如下图所示:注意,上述分数是由训练所得。与GBDT类似,两棵树的结论累加起来便是最终结论。如果不考虑工程实现、解决问题上的一些差异,XGBoost与GBDT比较大的不同就是目标函数的定义:Obj(t)=∑i=1nl(yi,y^i(t))+∑i=1tΩ(fi)=∑i=1nl(yi,y^i(t−1)+ft(xi))+Ω(ft)+ constant \begin{align原创 2021-05-30 01:31:45 · 265 阅读 · 0 评论 -
GBDT常见问答
关于GBDT的算法原理和实例讲解可见:GBDT算法原理以及实例讲解GBDT总结下面是涉及到的GBDT的面试问答:基本原理通过多轮迭代,每轮迭代产生一个弱分类器(利用CART回归树构建),每个分类器在上一轮分类器的残差基础上进行训练。最后将这些弱分类器线性组合成一个强学习器。GBDT如何做特征选择?遍历样本的特征,对于每个特征,遍历样本的切分点,选择最优的特征的最优切分点;判断最优时使用平方误差。使用一个特征及其切分点可将样本分为两部分,每部分都计算一个标签的平均值,计算标签平均原创 2021-04-06 01:08:25 · 256 阅读 · 0 评论 -
决策树总结
决策树的定义和示例见西瓜书P73~P74,下面主要介绍决策树的构造算法:信息熵信息熵是衡量样本集合纯度最常用的一种指标。假定当前样本集合 DDD 中第 kkk 类样本所占比例为 pk(k=1,2,⋯ ,∣γ∣)p_k(k=1,2,\cdots,|\gamma|)pk(k=1,2,⋯,∣γ∣) ,那么 DDD 的信息熵为:Ent(D)=−∑k=1∣γ∣pklog2pkEnt(D) = - \sum_{k=1}^{|\gamma|} p_k log_2 p_kEnt(D)=−k=1∑∣γ∣pkl原创 2021-04-01 20:49:20 · 157 阅读 · 0 评论 -
logistic回归参数求解推导
记录一下逻辑回归的参数求解推导过程:损失函数线性回归的表达式为:f(x)=wx+bf(x) = wx+bf(x)=wx+b,为了消除后面的bbb,令θ=[wb],x=[x1]T\theta = [w \quad b], x = [x \quad 1]^Tθ=[wb],x=[x1]T,则f(x)=θxf(x) = \theta xf(x)=θx;将其转换为逻辑回归模型:y=σ(f(x))=σ(θx)=11+e−θxy=\sigma(f({x}))=\sigma\left({\theta} {x}\rig原创 2021-03-23 22:00:06 · 680 阅读 · 0 评论 -
zero/few shot learning
关于 zero/few shot learning 的基础概念,在此记录一下:小样本问题零次学习入门原创 2019-12-22 20:45:58 · 332 阅读 · 0 评论 -
反向传播
简介误差反向传播算法简称反向传播算法(Back Propagation)。使用反向传播算法的多层感知器又称为BP神经网络。BP算法是一个迭代算法,它的基本思想如下:将训练集数据输入到神经网络的输入层,经过隐藏层,最后达到输出层并输出结果,这就是前向传播过程。由于神经网络的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;在反...原创 2019-05-18 22:58:54 · 9405 阅读 · 5 评论 -
CNN
卷积神经网络(Convolutional Neural Networks)是一种深度学习模型或类似于人工神经网络的多层感知器,常用来分析视觉图像。CNN在图像分类数据集上有非常突出的表现。DNN与CNN下图为DNN:下图为CNN:虽然两张图的结构直观上差异较大,但实际上它们的整体架构是非常相似的。CNN通过一层一层的节点组织起来。和DNN一样,CNN的每一个节点都是一个神经...原创 2019-06-07 22:20:47 · 13745 阅读 · 0 评论 -
CNN反向传播
深度神经网络(DNN)反向传播的公式推导可以参考之前的博客:https://transformerswsz.github.io/2019/05/29/反向传播/。要套用DNN的反向传播算法到CNN,有几个问题需要解决:池化层没有激活函数,我们可以令池化层的激活函数为 g(z)=zg(z) = zg(z)=z,即激活后输出本身,激活函数的导数为1。池化层在前向传播的时候,对输入矩阵进行了压缩...转载 2019-06-08 20:21:53 · 391 阅读 · 0 评论 -
SVM
简介支持向量机(Support Vector Machine)是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。SVM的学习算法是求解凸二次规划的最优化算法。假设在一个二维线性可分的数据集中,图一A所示,我们要找到一条把两组数据分开,这条直线可以是图一B中的直线,也可以是图一C中的直线,或者图一D中的直线,但是哪条直线能够达到最好的泛化能力呢?那就是一个能使两类之间的空...原创 2019-06-24 12:10:55 · 401 阅读 · 0 评论 -
CRF
条件随机场(Conditional Random Fields)是给定一组输入序列条件下另一组输出序列的概率分布模型,在NLP中应用很广泛。场景假设我们有Bob一天从早到晚的一系列照片,Bob想考考我们,要我们猜这一系列的每张照片对应的活动,比如: 工作的照片,吃饭的照片,唱歌的照片等等。一个比较直观的办法就是,我们找到Bob之前的日常生活的一系列照片,然后找Bob问清楚这些照片代表的活动标...原创 2019-07-10 13:38:20 · 732 阅读 · 0 评论 -
N-gram模型
N-gram是一种传统的统计语言模型,该模型基于这样一种假设:第 nnn 个词的出现只与前面 m−1m-1m−1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 mmm 个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram(即 m=2m=2m=2 或 m=3m=3m=3)。预备知识条件概率P(B∣A)=P(AB)...转载 2019-08-17 18:03:48 · 505 阅读 · 0 评论 -
广义线性模型
为什么要引入GLM?我们知道了”回归“一般是用于预测样本的值,这个值通常是连续的。但是受限于其连续的特性,一般用它来进行分类的效果往往很不理想。为了保留线性回归”简单效果又不错“的特点,又想让它能够进行分类,因此需要对预测值再做一次处理。这个多出来的处理过程,就是GLM所做的最主要的事。而处理过程的这个函数,我们把它叫做连接函数。如下图是一个广义模型的流程:图中,当一个处理样本的回归模型是...原创 2019-04-23 23:25:52 · 533 阅读 · 0 评论