统计机器学习
搬用工tyler
这个作者很懒,什么都没留下…
展开
-
条件随机场(CRF)
从例子说起——词性标注问题-----啥是词性标注问题?非常简单的,就是给一个句子中的每个单词注明词性。比如这句话:“Bob drank coffee at Starbucks”,注明每个单词的词性后是这样的:“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。下面,就用条件随机场来解决这个问题。以上面的话为例,有5个单词...原创 2020-04-06 11:59:52 · 197 阅读 · 0 评论 -
隐马尔可夫模型(HMM)
概率图模型概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即“变量关系图”。根据边的性质不同,概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔科夫网。隐马尔可夫模型隐马尔可夫模型是结构...原创 2020-04-05 17:51:23 · 499 阅读 · 0 评论 -
随机森林(RF)
BaggingBagging基本流程:采样出TTT个包含mmm个训练样本的采样集基于每个采样集合训练出一个基学习器将这些基学习器结合对于分类任务通常使用简单投票法;回归任务使用简单平均法优点:训练一个Bagging集成与直接使用基学习器算法训练一个学习器的复杂度同阶,说明Bagging是一个高效的集成学习算法与标准的AdaBoost只适用于二分类任务不同,Bagging能不经...原创 2020-04-04 19:13:02 · 383 阅读 · 0 评论 -
Xgboost
目标函数Xgboost与GBDT比较大的不同就是目标函数的定义,xgboost的目标函数如下图所示:其中,红色箭头所指向的lll即为损失函数,比如平方损失函数: l(yi,y^i)=(yi−y^i)2l(y_i,\hat{y}_i) = (y_i-\hat{y}_i)^2l(yi,y^i)=(yi−y^i)2,或logistic损失函数l(yi,y^i)=yiln(1+e−y^...原创 2020-04-04 18:25:22 · 217 阅读 · 0 评论 -
GBDT
GBDT回归树GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是CART回归树。为什么不用CART分类树呢?因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。 对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,...原创 2020-04-03 17:58:38 · 198 阅读 · 0 评论 -
CART决策树
CART简介CART算法采用二分递归分割的技术将当前样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。非叶子节点的特征取值为True和False,左分支取值为True,右分支取值为False,因此CART算法生成的决策树是结构简洁的二叉树。CART可以处理连续型变量和离散型变量,利用训练数据递归的划分特征空间进行建树,用验证数据进行剪枝。如果待预测分类是离散型数据,则CART生成...原创 2020-04-02 22:15:07 · 474 阅读 · 0 评论 -
AdaBoost
BoostingBoosting是一族可将弱学习器提升为强学习的算法,机制为:先从初始训练集训练出一个基学习器根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注然后基于调整后的样本分布来训练下一个基学习器以上重复进行,直至基学习器数目达到事先指定的值TTT最终将这TTT个基学习器进行加权结合AdaBoostAdaBoost是Boostin...原创 2020-04-01 18:02:18 · 346 阅读 · 0 评论 -
Logistic回归进化之FTRL
SGD算法GD算法SGD算法与SGD比较,GD需要每次扫描所有的样本以计算一个全局梯度,SGD则每次只针对一个观测到的样本进行更新。通常情况下SGD可以更快的逼近最优值,而且SGD每次更新只需要一个样本,使得它很适合进行增量或者在线计算(也就是所谓的Online learning)。稀疏解代和选取模型的时候我们经常希望得到更加稀疏的模型,这不仅仅起到了特征选择的作用,也降低了预测...原创 2020-03-31 19:17:30 · 358 阅读 · 0 评论 -
Logistic回归
概念Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题LR分类器适用数据类型:数值型和标称型数据。其优点是计算代价不高,易于理解和实现;其缺点是容易欠拟合,分类精度可能不高。多维特征的训练数据进行LR时特征值必须做scale,确保特征的取值在相同的尺度内计算才会收敛。模型多元线性回归模型:y=θTxy=\theta^Txy=θTxLogist...原创 2020-03-31 16:32:18 · 256 阅读 · 0 评论