机器学习笔记
文章平均质量分 69
海晨威
Growth is a song
展开
-
用scikit-learn学习聚类算法
聚类,是数据挖掘中一个很重要的概念,它是将对象的集合分成由类似的对象组成的多个类的过程。实现的算法有很多,其中在python的scikit-learn库中,大部分都已经实现了,不必我们重复造轮子图片来自scikit-learn中文教程官方网站:http://sklearn.apachecn.org/cn/0.19.0/modules/clustering.html是由许多勤劳的原创 2017-10-29 16:15:26 · 2073 阅读 · 1 评论 -
AdaBoost、GBDT、RF、XGboost、lightGBM的对比分析
文章目录AdaBoostGBDTRandom ForestXGboostLightGBM对比分析AdaBoost简单介绍AdaBoost是基于boosting的思想,通过多个弱分类器的线性组合来得到强分类器,训练时重点关注被错分的样本,准确率高的弱分类器权重大。更深一步的介绍在训练过程中,它不改变所给的训练数据,而是不断改变训练数据权值的分布,使得被误分类的数据再后一轮的分类中受到更大的...原创 2019-01-31 23:09:56 · 3751 阅读 · 1 评论 -
图解GBDT的构造和预测过程
GBDT 及其改进版本(XGboost, lightGBM)在数据竞赛中占了大半江山,网上讲解的文章也很多,但大多是文字和公式的形式,这里尝试用简单的图解形式,去理解 GBDT 的基本操作过程。参考《统计学习方法》P149中的例子,说明 GBDT 的构造和预测过程。GBDT的构造GBDT 采用的弱分类器限定了 CART,因此构造出来的都是二叉树,因为单棵 CART 树的能力有限,GBDT 通...原创 2018-11-03 16:36:45 · 6813 阅读 · 0 评论 -
决策树知识思考
1、决策树的模型策略和算法模型:决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看,学习也是基于训练数据集估计条件概率模型。策略:决策树的损失函数通常是正则化的极大似然函数,学习的策略是以损失函数为目标函数的最小化。算法:由于这个最小化问题是一个NP完全问题,现实中,我们通常采用启发式算法来近似求解这一最优化问题,因此得到的...原创 2018-11-01 19:25:44 · 736 阅读 · 0 评论 -
机器学习+特征工程vs深度学习—如何选择
对于数据挖掘和处理类的问题,使用一般的机器学习方法,需要提前做大量的特征工程工作,而且特征工程的好坏会在很大程度上决定最后效果的优劣(也就是常说的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已)。使用深度学习的话,特征工程就没那么重要了,特征只需要做些预处理就可以了,因为它可以自动完成传统机器学习算法中需要特征工程才能实现的任务,特别是在图像和声音数据的处理中更是如此,...原创 2018-10-04 15:37:41 · 7383 阅读 · 1 评论 -
支持向量机SVM的策略和过拟合问题
统计学习方法由三要素构成:模型,策略和算法。支持向量机的三要素:模型:分离超平面 w*x+b=0 和决策函数 f(x)=sign(w*x+b)策略:结构风险最小化,具体对于SVM是间隔最大化算法:凸二次规划对于支持向量机的模型和算法,都比较好理解,那它的策略间隔最大化,为什么是结构风险最小化呢对于SVM原始的约束最优化问题:w^2就是参数向量的L2范数,也就是正则化...原创 2018-09-01 10:59:44 · 14648 阅读 · 2 评论 -
为什么ROC曲线不受样本不均衡问题的影响
在对分类模型的评价标准中,除了常用的错误率,精确率,召回率和F1度量外,还有两类曲线:ROC曲线和PR曲线,它们都是基于混淆矩阵,在不同分类阈值下两个重要量的关系曲线。在二分类问题中,分类器将一个实例分类为正样本和负样本,全部分类样本可以用一个混淆矩阵来表示。混淆矩阵有四个分类,如下表:对于PR曲线,它是精确率(precision,简称P)和召回率(Recall,简称R)的关系曲线,计...原创 2018-09-01 10:56:16 · 13535 阅读 · 6 评论 -
Logistic回归中的Logit函数和sigmoid函数
在线性回归中,y=wTxy=wTxy=w^{T}x,是用直线去拟合数据,实现最小二乘意义下的最小预测误差。在逻辑回归中:logit(p)=log(p1−p)=wTxlogit(p)=log(p1−p)=wTxlogit(p)=log(\frac{p}{1-p})=w^{T}x,可以看作是用直线去拟合Logit函数,通过极大似然估计出参数,使得在该参数下,能以最大概率生成当前的样本。这里要说...原创 2018-09-01 10:47:57 · 24070 阅读 · 3 评论 -
似然函数取对数的原因
不仅仅是减少计算量在计算一个独立同分布数据集的联合概率时,如:X={x1,x2,…,xN}X={x1,x2,…,xN}X=\{x_{1},x_{2},…,x_{N}\}其联合概率是每个数据点概率的连乘:p(X∣Θ)=∏i=1Np(xi∣Θ)p(X∣Θ)=∏i=1Np(xi∣Θ)p(X∣Θ)=∏\limits_{i=1}^{N}p(x_{i}∣Θ)两边取对数则可以将连乘化...原创 2018-07-28 20:31:43 · 17057 阅读 · 2 评论 -
机器学习(有监督)的本质和常用机器学习方法对应的映射与分类决策边界
机器学习有监督学习模型的本质:根据已有样本信息去对新的输入做出预测训练:根据已知训练样本(x,y)构建x→y的映射f(x)预测:根据映射f(x)对新的输入x进行预测得到y具体的形式如下图所示: 注:上图来自:机器学习的本质是什么?那这个映射f(x)的具体形式是什么样子的呢?下面就以几个常用的机器学习方法为例,以一个简单的线性可分数据集来展示映射f(x)的具体形式。Lo...原创 2018-04-30 21:33:27 · 1829 阅读 · 0 评论 -
瞬间理解F1-Measure中参数的影响
F-Measure是一种统计量,F-Measure又称为F-Score,F-Measure是精准率(查准率,Precision)和召回率(查全率,Recall)的加权调和平均,是IR(信息检索)领域的常用的一个评价标准,常用于评价分类模型的好坏。精准率和召回率的详细解释可参见:如何解释召回率与准确率?F-Measure的计算公式: 其中ββ\beta是参数,P是精准率,R是召回率...原创 2018-03-15 20:18:48 · 4935 阅读 · 2 评论 -
下划线 _ 作为临时变量
在许多的Tensorflow程序中,经常会看到用单个下划线“_”表示变量,但之后又并没有引用,此时“_”是仅作为临时的一个变量名称使用。在Tensorflow和Python中为一种约定俗成的表示,这样,当其他人阅读你的代码时将会知道,你分配了一个特定的名称,但是并不会在之后用到该名称。如:_,loss_=sess.run([train_op,loss],feed_dict={X:train_...原创 2017-12-05 16:37:32 · 2667 阅读 · 0 评论 -
代码可直接运行:利用深度学习进行股票预测,支持pytorch,keras和tensorflow
博主路一瓢的博文,让人受益匪浅。但博主提供的代码有一些bug,无法直接运行,经过本人的多番调试,已能完整运行,需要修改的路径问题也已经在代码中给出了注释,希望能在深度学习的路上给大家带来一些帮助。原创 2017-11-12 19:07:08 · 49737 阅读 · 405 评论 -
推荐系统介绍
推荐系统推荐系统是一种信息过滤系统,为了解决信息过载问题系统组成一般包括日志系统,推荐算法和内容展示UI其中推荐算法为核心,它一般又可以分为三层:基础层,推荐(召回)层,排序层。基础层为召回层提供特征,召回层为排序层提供候选集,排序层输出排序后的推荐结果。上图参考自:微博推荐系统介绍基础层主要通过NLP、CV、知识图谱等技术构造特征,推荐(召回)层基于用户历史行为数据信息,特征信息等...原创 2018-12-16 11:21:35 · 2472 阅读 · 0 评论