机器学习算法
文章平均质量分 71
Leonardo711
这个作者很懒,什么都没留下…
展开
-
基础研究面试准备
项目介绍模型简介模型优缺点相关技术boosting baggingGradient BoostingRandom ForestRandom forest与Bagging的区别GBDTXGBoost模型的横向比较参考文献项目介绍模型简介LR、SVM、gbdt、xgb、决策树模型优缺点朴素贝叶斯 优点: 1.生成式模型,通过计算概率来进行分类,可以用来处理多分类问题;原创 2017-04-11 17:01:07 · 449 阅读 · 1 评论 -
几种朴素贝叶斯分类器
* 朴素的由来 * 朴素的假设:认为各个特征相互独立。 * 种类 * 1. 高斯朴素贝叶斯(Gaussian Naive Bayes) 2. 多项式朴素贝叶斯(Multinomial Naive Bayes) 3. 伯努利朴素贝叶斯( Bernoulli Naive Bayes)朴素贝叶斯最常见的分类方法:根据贝叶斯公式可以得到 ŷ =argminyP(y)∏i=1NP(xi|y)原创 2017-04-17 17:20:15 · 1560 阅读 · 0 评论 -
FM和FFM原理
模型用途FM和FFM,分解机,是近几年出的新模型,主要应用于广告点击率预估(CTR),在特征稀疏的情况下,尤其表现出优秀的性能和效果,也数次在kaggle上的数据挖掘比赛中拿到较好的名次。FM原理特征编码时常用的one-hot编码,会导致特征非常稀疏(很多0值)。常用的特征组合方法是多项式模型,模型表达式如下: y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixjy(x)原创 2017-05-07 15:40:34 · 10379 阅读 · 0 评论 -
Adaboost算法
算法思路Adaboost是将弱分类器进行组合的算法。在这里弱分类器采用DecisionStump,通过迭代产生一系列的DecisionStump分类器,然后以一定权重进行组合。需要注意的是Adaboost正负样本一+1,-1表示,不是0、1。训练过程1.设置样本权重向量WW 2.计算得到当前最优的DecisionStump分类器 3.计算当前误分类率ϵ=∑W(h)\epsilon = \sum{原创 2017-05-08 15:29:12 · 562 阅读 · 1 评论 -
「ML」chapter2模型选择与评估
经验误差和过拟合经验误差 学习器在训练集上的误差称为经验误差 2.过拟合 学习器的经验误差降低,同时泛化性能也跟着下降。评估方法划分训练集和测试集 1.留出法 数据划分成互斥的两组,并尽可能保证数据分布的一致性,避免因为划分过程引入的偏差而对结果产生影响。 同时,单次使用留出法得到的估计结果往往不够稳定,一般采用若干次随机划分,重复实验评估。 2. 交叉验证法 分成k组大小相似的原创 2017-07-09 15:53:05 · 421 阅读 · 0 评论 -
「ML」chapter3:线性模型
基本形式f(x)=ω1x1+ω2x2+...+ωdxd+bf(x) = \omega_1 x_1+ \omega_2 x_2 + ... + \omega_d x_d +b 写成向量模式: f(x)=ωTx+bf(x) = \omega^Tx + b线性回归均方误差最小化,可以求出解析解。在引入多变量时,特征矩阵X往往不是满秩矩阵,这时可以有多组参数解,选择那个解作为输出,有学习算法的原创 2017-07-10 01:19:10 · 415 阅读 · 0 评论 -
「ML」Chap4决策树
决策树 1. 划分选择: 1.1 信息增益(ID3) 信息熵的定义: Ent(D)=−∑k=1|y|pklog2pkEnt(D) = -\sum_{k=1}^{|y|}p_klog_2p_k Ent(D)越小,纯度越高 信息增益(information gain) Gain(D,a)=Ent(D)−∑v=1V|Dv||D|Ent(Dv)Gain(D, a) = Ent(D) -原创 2017-07-19 01:21:17 · 530 阅读 · 0 评论