Machine learning
文章平均质量分 87
CC丶Z
迷失不要紧,关键是我们得在清醒后找到自己的定位和要前进的方向。
不过,你也要允许自己走上曲折的路。因为“走捷径”,会错过很多事情。
展开
-
机器学习进阶路上不可错过的 28 个视频
原文地址:http://blog.csdn.net/haifengid/article/details/51900632想自学机器学习和深度学习?不妨边看专家讲解视频边自学。不仅能感受世界各地专家的熏陶,也能快速获取知识,一举两得。这篇文章整理了一个 YouTube 视频列表,供希望在该领域学习的朋友使用。 视频观看建议 我将视频分为三类:机器学习、神经网络、深度学转载 2017-11-29 17:16:43 · 731 阅读 · 0 评论 -
决策树——连续值的处理
原文地址:https://blog.csdn.net/u012328159/article/details/79396893| 连续值处理 因为连续属性的可取值数目不再有限,因此不能像前面处理离散属性枚举离散属性取值来对结点进行划分。因此需要连续属性离散化,常用的离散化策略是二分法,这个技术也是C4.5中采用的策略。下面来具体介绍下,如何采用二分法对连续属性离散化: ...转载 2018-09-12 09:28:32 · 3703 阅读 · 0 评论 -
机器学习中的标准化和归一化
今天在看别人博客的时候看到标准化和归一化,这是一个很基础的问题,同时也能反映出对机器学习知识的掌握程度,所以这里特意查阅资料然后整理知识点,方便以后复习。1、归一化和标准化归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解。为了方便后续的讨论,必须先明确二者的定义。 归一化 就是将训练集中某一列数值特征(假设是第i列)的值缩放到0和1之间。方法如下所示: 标准化...转载 2018-08-20 10:22:39 · 3448 阅读 · 4 评论 -
对xgboost的一些理解
xgboost 简介 xgboost 的全称是eXtreme Gradient Boosting,由华盛顿大学的陈天奇博士提出,在Kaggle的希格斯子信号识别竞赛中使用,因其出众的效率与较高的预测准确度而引起了广泛的关注。 与GBDT的区别 GBDT算法只利用了一阶的导数信息,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标...转载 2018-08-20 09:45:31 · 6417 阅读 · 0 评论 -
详解最大熵模型
熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行...转载 2018-08-19 23:21:00 · 37498 阅读 · 8 评论 -
详解提升树模型(boosting tree)和梯度提升树模型(GBDT)
1、集成方法之BoostingBoosting方法是集成学习中重要的一种方法,在集成学习方法中最主要的两种方法为Bagging和Boosting,在Bagging中,通过对训练样本重新采样的方法得到不同的训练样本集,在这些新的训练样本集上分别训练学习器,最终合并每一个学习器的结果,作为最终的学习结果,Bagging方法的具体过程如下图所示:在Bagging方法中,最重要的算法为随机森林...转载 2018-08-16 18:03:17 · 9311 阅读 · 0 评论 -
随机森林(Ransom Forest)
1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。 那随机森林到底是怎样的一种算法呢? 如果读者接触过决策树(Decision Tree)的话,那么会很容易理解什么是随机森林。...转载 2018-08-16 17:41:29 · 857 阅读 · 0 评论 -
详解决策树相关内容
前言:决策树(Decision Tree)是一种基本的分类与回归方法,本文主要讨论分类决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。相比朴素贝叶斯分类,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。一、决策树模...转载 2018-08-16 16:56:28 · 689 阅读 · 0 评论 -
详解逻辑回归(LR)计算过程
原文地址:http://blog.csdn.net/dongtingzhizi/article/details/159627971.引言本文主要介绍以下三个方面的内容:(1)Logistic Regression的基本原理,分布在第二章中;(2)Logistic Regression的具体过程,包括:选取预测函数,求解Cost函数和J(θ),梯度下降法求J(θ)的最小值,以及递归下...转载 2018-08-16 12:30:04 · 28978 阅读 · 2 评论 -
详解朴素贝叶斯分类算法
原文地址:https://blog.csdn.net/amds123/article/details/70173402带你搞懂朴素贝叶斯分类算法 带你搞懂朴素贝叶斯分类算贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分...转载 2018-08-15 22:25:31 · 23758 阅读 · 7 评论 -
机器学习——LR与SVM的比较
为什么把SVM和LR放在一起进行比较?一是因为这两个模型应用广泛。 二是因为这两个模型有很多相同点,在使用时容易混淆,不知道用哪个好,特别是对初学者。一、LR与SVM的相同点:第一,LR和SVM都是分类算法。看到这里很多人就不会认同了,因为在很大一部分人眼里,LR是回归算法。我是非常不赞同这一点的,因为我认为判断一个算法是分类还是回归算法的唯一标准就是样本label的类型,如果l...转载 2018-08-15 22:05:17 · 2957 阅读 · 1 评论 -
解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html1、信息熵 (information entropy)熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。本文只讨论信息熵。首...转载 2018-08-15 11:06:03 · 6033 阅读 · 2 评论 -
机器学习中的正则化项(L1, L2)的理解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的...转载 2018-07-27 13:01:31 · 1582 阅读 · 0 评论 -
EM算法(Expectation Maximization Algorithm)详解
EM算法(Expectation Maximization Algorithm)详解主要内容 EM算法简介 预备知识 极大似然估计 Jensen不等式 EM算法详解 问题描述 EM算法推导 EM算法流程 EM算法优缺点以及应用 1、EM算法简介 EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步...转载 2018-07-26 23:01:20 · 738 阅读 · 0 评论 -
决策树——缺失值的处理
原文地址:https://blog.csdn.net/u012328159/article/details/79413610现实生活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量比较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有大量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了大量的样本,对于机器学习模型而言损失了大量有用的信息,训练出来的模型性...转载 2018-09-12 09:30:17 · 5135 阅读 · 0 评论