机器学习
文章平均质量分 59
zakexu
这个作者很懒,什么都没留下…
展开
-
FM模型
(一)简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于稀疏数据具有很好的学习能力;2.FM模型与LR模型的区别在于引进了特征组合;(二)算法1.线性回归模型:没有考虑特征分量之间的关系;2.考虑特征分量之间关系的线性回归模型:若样本特征为高度稀疏,那么不能对wij参数进行估计,绝大部分为0;3.FM模型:引入辅原创 2016-03-10 11:42:30 · 13588 阅读 · 2 评论 -
KNN模型
(一)KNN算法1.算法流程:(1)根据给定的距离度量,在训练集中找出与样本x最近的k个点(2)在这k个点中,根据分类决策原则(比如多数表决),决定x的类别y2.KNN三大基本要素(1)距离度量:特征空间中2个实例点的距离是2个实例点相似程度的反映(2)K值的选择:K值较小使模型复杂化容易过拟合,K值较大使模型简单化容易欠拟合(3)分类决策规则:一般是多数表决原创 2015-04-22 13:26:25 · 11544 阅读 · 0 评论 -
ID3/C4.5模型
(一)简介1.决策树是一种基本的分类与回归方法,由结点跟有向边组成;其中结点可以分为内部结点(代表特征)跟叶结点(代表类别);2.决策树模型:从根结点开始,对样本的某一特征进行测试,根据测试结果,将样本分配到其子结点,如此递归对样本进行测试并分配,直至达到叶结点;3.决策树模型的学习有3个步骤:特征选择,决策树的生成(局部最优化过程),决策树的剪枝(全局最优化过程);4. 决策树模原创 2015-04-20 20:56:15 · 1182 阅读 · 0 评论 -
Adaboost算法
(一)简介PCA(主成分分析)是一种能够极大提升无监督特征学习速度的数据降维算法,其将原始数据的n维空间映射到k维特征空间,其中k(二)算法1.假设原始数据以及降维矩阵如下:其中n表示原始数据的维数,m表示样本数目,k表示特征空间的维数;(X已经做过zero-mean预处理,也就是说每个维数的mean均为0)2.为了满足k维特征空间最大方差以及正交的约束,有如下目标函数原创 2015-05-09 17:23:44 · 1101 阅读 · 0 评论 -
RF模型
(一)简介1.随机森林(random forests,RF),指的是利用多棵树对样本进行训练并预测的一种分类器;该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标;简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的;2.随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成原创 2015-12-25 18:56:17 · 7182 阅读 · 0 评论 -
CART模型
(一)简介1.CART(classification and regression tree)是应用广泛的决策树学习方法,既可以用于分类也可以用于回归;2.CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布;(二)回归树1.一个回归树对应着特征空间的一个划分以及原创 2015-04-20 21:20:56 · 4802 阅读 · 0 评论 -
GMM模型
(一)高斯判别分析模型(Gaussian discriminant analysis,GDA)1.GDA模型是服从高斯分布的生成模型:(1)假设每个类别的样本数据服从多元高斯分布:(2)现在假设样本值为多维连续变量,讨论二分类问题,那么分别对两个类别的样本进行高斯建模(使用同一个协方差矩阵):那么概率分布如下:2.似然函数如下:3.参数的极大似然原创 2016-02-20 17:20:59 · 5289 阅读 · 0 评论 -
HMM模型
(一)基本概念1.隐马尔科夫模型(Hidden Markov Model,HMM):关于时序的概率模型;描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程;(1)状态序列:HMM生成的状态的序列,称为状态序列;(2)观测序列:每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列;(3)序列的每一个位置又可以看作是一个...原创 2016-02-19 14:17:18 · 3248 阅读 · 1 评论 -
GBDT模型
(一)简介1.以决策树作为基函数的提升方法称为提升树;提升树利用加法模型与前向分步算法实现学习的优化过程;当损失函数是平方损失和指数损失函数时,每一步的优化是很简单的,但对一般损失函数而言,往往每一步优化并不简单,这里使用梯度提升(gradient boosting)算法;(二)原创 2015-12-28 12:40:19 · 4892 阅读 · 0 评论 -
优化理论
(一)梯度下降算法(最速下降法)1.梯度下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢;2.梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值);3.迭代公式为 ,其中 代表梯度负方向, 表示梯度方向上的搜索步长;(二)牛顿法(1)牛顿法最初是用来求解函数零值点位置的原创 2016-02-23 16:27:04 · 1616 阅读 · 1 评论 -
逻辑回归模型
(一)算法简介1.模型其中:PS:该博文分析的是二分类,类别为1或者0;2.学习策略(最大化似然函数)3.优化算法(梯度上升)(二)牛顿法及其扩展1.牛顿法是用来求解函数零值点的位置的一种算法,假设需求解:根据牛顿法,只需要更新参数如下:经过若干次迭代,可以近似求得函数零值点所在位置;2.牛顿法可以进行扩展,用原创 2015-07-26 10:14:11 · 1573 阅读 · 0 评论 -
计算广告
(一)简介1.广告主+变现平台+受众2.广告分类:(1)品牌广告、直接效果广告;(2)横幅广告(banner)、文字链广告;(3)合约广告、搜索广告、竞价广告、程序化交易广告、原生广告;3.计费方式术语:(1)CPM(cost per mille):按千次展示付费(2)CPT(cost per time):按时长付费(3)CPC(cost per click):原创 2016-05-11 15:47:42 · 1853 阅读 · 0 评论 -
线性回归模型
(一)算法简介1.模型:2.学习策略:3.优化算法:(1)梯度下降算法:(2)批量梯度下降算法:原创 2015-07-25 15:40:05 · 1192 阅读 · 0 评论 -
推荐系统
(一)概念1.协同过滤(Collaborative Filtering,CF)是现今推荐系统中应用最为成熟的一个推荐算法,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯;2.常见的协同过滤算法(CF):(1)基于用户的协同过滤(user-based CF)(2)基原创 2016-02-24 20:58:56 · 5243 阅读 · 1 评论 -
XGBoost模型
1.模型(1)整体模型函数如下:其中 k 表示树的数量,f 表示每棵树的预测函数;(2)截取到第 t 棵树的模型函数表示如下:2.训练(1)每次训练一棵树,目标函数如下: 其中第一项是损失函数,第二项是防止过拟合;N表示样本数,T表示所有树的叶子数目,t 表示训练第 t 棵树,w 表示叶子的输出值;(2)泰勒展开(二阶展开):原创 2016-04-28 20:33:37 · 6550 阅读 · 0 评论 -
K-means算法
(一)简介1.K-means是最常见的聚类算法,属于无监督学习算法;(二)算法过程在聚类问题中,给我们的训练样本是,每个 K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下:1、 随机选取k个聚类质心点(cluster centroids)为。2、 重复下面过程直到收敛 { 对于每一个样例i,计原创 2015-04-28 15:18:53 · 1194 阅读 · 1 评论 -
朴素贝叶斯模型
(一)概念1.朴素贝叶斯法是基于贝叶斯定理以及特征条件独立假设的分类方法。2.贝叶斯定理:3.特征条件独立假设:假设用于分类的特征在类确定的条件下都是条件独立的,朴素贝叶斯由此得名。(二)算法1.计算先验概率:2.计算条件概率:3.根据贝叶斯定理计算后验概率:4.分类器可表示为:(三)估算先验概率与原创 2015-04-22 13:27:13 · 1435 阅读 · 0 评论 -
基本概念
1.监督学习(1)原创 2014-08-20 23:43:06 · 2493 阅读 · 2 评论 -
EM算法
(一)简介1.概率模型有时既含有观测变量,又含有隐变量,将观测数据以及未观测数据表示如下:那么观测数据的似然函数为:考虑求模型参数的极大似然估计,即:2.含有隐变量的概率模型参数的极大似然估计没有解析解,只有通过迭代的方法求解;EM(expectation maximization)算法是解决这类问题的一种迭代算法;EM算法的每次迭代有两步:E步求期望,M步原创 2015-04-28 13:25:35 · 1607 阅读 · 0 评论 -
softmax模型
(一)The exponential family1.指数函数家族可以表示成以下形式:其中:(1)表示参数;(2)大多数情况下:2.linear regression跟logistic regression中的伯努利分布以及高斯分布都属于指数函数家族;(1)伯努利分布:其中:(2)高斯分布(设定方差为1):其中:(二)原创 2015-07-26 14:05:55 · 1546 阅读 · 0 评论 -
PCA算法
(一)简介1.白化(whitening/sphering)的目的就是降低输入的冗余性;更正式的说,我们希望通过白化过程使得学习算法的输入具有如下性质:(1)特征之间相关性较低;(2)所有特征具有相同的方差。2.常见的白化预处理有:(1)PCA白化;(2)ZCA白化;(二)PCA白化1.根据本人之前的博文《PCA算法》,可以知道对X的协方差矩阵分解后得到的特征向量U,可以使得数据原创 2015-05-09 17:25:06 · 3583 阅读 · 0 评论 -
SVM模型
(一)简介1.SVM(support vector machine)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,利用间隔最大化求最优分离超平面:2.SVM分类器的模型为:3.函数间隔与几何间隔的概念(1)函数间隔关于样本点的函数间隔:关于样本集的函数间隔:(2)几何间隔关于样本点的几何间隔:关于样本原创 2015-04-27 15:00:07 · 27895 阅读 · 0 评论