![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
lukeyyanghang
这个作者很懒,什么都没留下…
展开
-
boosting与bagging
什么是Bagging?1.基本思想:自助采样法,给定包含m个样本的数据集,随即取出一个样本放入采样集,再把该样本放回初始数据集,这样经过m次随机采样操作,可以得到含m个样本的采样集。照这样,可以采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。结合时对多分类任务使用简单投票法,对回归任务使用简单平均法。(随机有放回) 2.优点:a...原创 2019-01-24 14:04:44 · 327 阅读 · 0 评论 -
线性回归
什么是线性回归?在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 假设函数hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn=θTxθ 为回归系数,它是我们预测准度的基石 误差函数LMS(Least Mean Square),最小均方误差我们用最小均方来描述误差,误差评估函数在机器学习中也称为代价...原创 2019-01-28 15:03:46 · 442 阅读 · 0 评论 -
EM算法
EM算法是什么?期望最大EM算法是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。 举个例子两枚硬币A和B,假定随机抛掷后正面朝上概率分别为PA,PB。为了估计这两个硬币朝上的概率,咱们轮流抛硬币A和B,每一轮都连续抛5次,总共5轮: 硬币A被抛了15次,在第一轮、第三轮、第五轮分别出现了3次正、1次正、2次正,所以很容易估计出...转载 2019-01-29 10:59:29 · 1555 阅读 · 0 评论 -
Apriori算法
Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。 支持度:支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单活着一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入...原创 2019-01-29 11:02:01 · 464 阅读 · 0 评论 -
itemCF算法
什么是itemCF算法?itemCF:ItemCollaborationFilter,基于物品的协同过滤 算法的核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品 那么如何判断物品的是否相似呢?该算法认为,喜欢物品A的用户大都也喜欢物品B,那么我们称物品A和物品B相似。 itemCF算法流程1.计算物品之间的相似度2.根据物品的相似度和用户的历史行为给用...转载 2019-02-15 13:55:53 · 10236 阅读 · 0 评论 -
XGBoost
什么是XGBoost?XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本,因其在应用实践中表现出优良的效果和效率,因而被工业界广为推崇。 XGBoost类似于GBDT,是一个基于CART树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法。 XGBoost的数学原理作为GB方...转载 2019-02-25 11:56:38 · 6649 阅读 · 0 评论 -
Random Forest
什么是Random Forest?Random Forest是一个基于Bagging算法的,以CART(广义定义上是弱分类器如SVM,LR都可以)为基学习器,以优化方差为学习目标的的集成学习模型。可以使用上回归和分类两种场景下:在回归下,使用简单平均法。在分类下,使用简单投票法。 Bagging算法,又称为0.632自助法,也就是我们常说的自助有放回。基于这个特性,我们在使...转载 2019-02-25 11:59:03 · 171 阅读 · 0 评论 -
KNN分类算法
K-近邻算法简单来说,如下图所示这个绿色的球是什么颜色,就是说,离他最近的3个点(那就是k-3)是什么颜色。2/3是红色。如果是k-5呢?那就是蓝色。这就是knn算法。 一种很好理解的分类概率模型。 在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离:欧氏距离差的平...原创 2019-01-28 14:57:28 · 179 阅读 · 0 评论 -
矩阵分解模型
矩阵分解模型做如下假设:1.每个用户可描述为n个属性或特征。比如,第一个特征可以对应某个用户对动作片的喜好程度。2.每个物品可描述为n个属性或特征。比如,接上一点,第一个特征可以用对应某部电影与动作片的接近程度。3.将用户和物品对应的属性相乘后求和,该值可能很接近用户会对该物品的评级。 1.显式矩阵分解当要处理的数据是由用户所提供的自身的偏好数据时,这些数据被称作显式偏好数...原创 2019-01-27 15:11:11 · 3297 阅读 · 0 评论 -
决策树算法
决策树决策树算法是一个自顶向下的树(可以是二叉树,也可以是多叉树)。算法原理简单,易解释,分类性能较好。决策树是一种强大的、非概率的方法。 决策树非叶节点划分规则:1.信息增益最大的先分,通俗来讲就是针对于因变量区分度最大的标签2.离散变量采用是或不是的方法3.连续变量采用>=或<=的方法 分枝策略:分类树:信息熵回归树:最小均方差 主要...原创 2019-01-26 11:54:53 · 781 阅读 · 0 评论 -
GBDT和XGBoost区别
RF、GBDT和XGBoost都属于集成学习,集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 GBDT和XGBoost区别1.传统的GBDT以CART树作为基学习器,XGBoost还支持线性分类器,这个时候XGBoost相当于L1和L2正则化的logistic回归(分类)或者线性回归(回归);2.传统的GBDT在优化的时候只用到一阶导数信息,XG...转载 2019-01-26 11:57:18 · 215 阅读 · 0 评论 -
K-means
什么是K-Means?K-Means是一种无监督的分类学习算法。无监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据,即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性。 基本原理K-Means 算法是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类好坏的评价指标,通过迭代的方法使总体分类的误差评分和函数...原创 2019-01-26 12:00:35 · 143 阅读 · 0 评论 -
初识推荐模型
一般来讲,推荐模型试图对用户于某类物品之间的联系建模。简单来说就是,“用户---物品”。 推荐模型适合如下两类常见场景:1.可选项众多2.偏个人喜好 可以归结为2种推荐形式,一种是基于人和相似的人,另一种就是基于物品和相似的物品。 推荐模型目前最为流行的方法可以分为2种(以电影为例)1.基于内容的过滤描述电影属性可用演员、流派、流行度等属性,描述用户属性可用...原创 2019-01-26 12:04:00 · 645 阅读 · 0 评论 -
异常检测
"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism." — D. M. Hawkins,Identification of Outliers, Chapma...转载 2019-01-26 12:06:13 · 387 阅读 · 0 评论 -
Isolation Forest
什么是Isolation Forest?Isolation Forest的思路很简单。假设我们的数据集合是一维空间下的点我们通过切分的方式可以很方便的将异常点B点切分出来。如何定义方便?切分的次数那这个思路对于正常点点A来说也可以取,可以看到如果要把A隔离出来我要切很多遍。 Isolation Forest算法1.训练:抽取多个样本,构建多棵二叉树(isolat...原创 2019-01-26 12:14:51 · 300 阅读 · 0 评论 -
Local Outlier Factor
什么是Local Outlier Factor?LOF(Local Outlier Factor),又称局部异常因子算法。区别于Isolation Forest算法(切分次数),LOF算法以距离为切入点,做异常检测。以上图为例,可以很简单的理解距离做异常检测来源的想法。 LOF的几个概念1.d(p,o)两点p和o之间的距离;2.k-distance第k距离d...原创 2019-01-31 15:48:03 · 1227 阅读 · 0 评论 -
朴素贝叶斯分类
朴素贝叶斯是一种简单的,好解释的概率模型。如下是我们高中时候就学过的当B发生的时候A发生的概率,它被叫做事件B发生下事件A的条件概率 但是实际情况中,我们往往是需要通过A去推断B。先给出贝叶斯定理 通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其...转载 2019-01-31 15:53:16 · 274 阅读 · 0 评论 -
GBDT
什么是GBDT?GBDT(梯度提升树),是一个以回归树为基学习器,以boost为框架的加法模型的集成学习。GBDT基于GB算法。GB算法的主要思想是,每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断调整提升性能,其最好的方法就是使损失函数沿着梯度方向下降。GBDT再...转载 2019-02-25 12:01:27 · 12622 阅读 · 0 评论