2019年06月_clvsit

原创决策树可视化

决策树相比其他算法的一个重要特性就是——可解释性，构建决策树的过程就相当于形成 if-then 规则集。如果我们能够将生成的决策树可视化，那么我们就可以对数据集与预测值之间的关系有清晰的认识。我们可以使用 graphviz 包来帮助我们可视化决策树模型，安装地址传送门。然后，选择适合操作系统的版本下载。下载完成后可以将 graphviz bin 目录路径添加到系统环境变量中，这样方便后续的操作...

2019-06-30 22:01:44 5081

原创推荐系统-node2vec 技术在设计网络推荐中的应用

美国著名的第三方调查机构尼尔森调查了影响用户相信某个推荐的因素，调查结果显示，9 成的用户相信朋友对他们的推荐，7 成的用户相信网上其他用户对广告商品的评论。从该调查可以看到，好友的推荐对于增加用户对推荐结果的信任度非常重要。因此，在社交网络的背景下，推荐系统不单单需要关注用户与物品之间的关系，还要关注用户之间的关系。在社交网站方面，国外以 Fackbook 和 Twitter 为代表，国内社...

2019-06-07 19:26:39 3470 2

原创推荐系统-基于用户的推荐在社交网络中的应用

美国著名的第三方调查机构尼尔森调查了影响用户相信某个推荐的因素，调查结果显示，9 成的用户相信朋友对他们的推荐，7 成的用户相信网上其他用户对广告商品的评论。从该调查可以看到，好友的推荐对于增加用户对推荐结果的信任度非常重要。因此，在社交网络的背景下，推荐系统不单单需要关注用户与物品之间的关系，还要关注用户之间的关系。在社交网站方面，国外以 Fackbook 和 Twitter 为代表，国内社...

2019-06-07 19:21:07 4770

原创决策树-CART（下）

承接上文模型选择-CART（上），我们继续来讲 CART 算法的剪枝操作。树剪枝一棵树如果节点过多，则表明该模型可能对数据进行了“过拟合”。我们可通过降低决策树的复杂度来避免过拟合，最有效的手段是进行剪枝处理（pruning）。先前在函数 choose_best_split() 中的提前终止条件，实际上在进行一种所谓的预剪枝（prepruning）操作。另一种形式的剪枝需要使用测试集和训练...

2019-06-05 21:42:53 757 2

原创决策树-CART（上）

CART（Classification And Regression Trees，分类回归树）算法是一种树构建算法，既可以用于分类任务，又可以用于回归。相比于 ID3 和 C4.5 只能用于离散型数据且只能用于分类任务，CART 算法的适用面要广得多，既可用于离散型数据，又可以处理连续型数据，并且分类和回归任务都能处理。CART 算法生成的决策树模型是二叉树，而 ID3 以及 C4.5 算法生成...

2019-06-05 21:40:46 6701 9

原创模型选择-朴素贝叶斯（下）

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 x，利用贝叶斯定理求出后验概率最大的输出 y。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。实际上学习到生成数据的机制，所以属于生成模型。极大似然估计在朴素贝叶斯法中，学习意味着估计 P(...

2019-06-04 20:45:25 691 2

原创模型选择-朴素贝叶斯（上）

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 x，利用贝叶斯定理求出后验概率最大的输出 y。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。实际上学习到生成数据的机制，所以属于生成模型。概率论基本知识联合概率：设 A，B 是两个随机事...

2019-06-04 19:56:39 691

原创决策树-C4.5

C4.5 算法由 Quinlan 于 1993 年提出，核心部分与 ID3 算法相似，只是在 ID3 算法的基础上进行了改造——在特征选择过程以信息增益比作为选择准则。【具体方法】：从根结点（root node）出发，对结点计算所有可能特征的信息增益比，选择信息增益比最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很...

2019-06-04 12:31:33 462

原创基于 Wi-Fi 的室内定位系统

目前，随着国内外相关从业人员的研究，研究者们提出了众多室内定位技术的理论与方法。在此仅讨论基于 Wi-Fi 的室内定位技术。WI-FI室内定位近年来Wi-Fi技术飞速发展，城市中的公共场所如大型超市商场、学校、企业等都已经广泛部署Wi-Fi。Wi-Fi室内定位技术已经出现了很多具有代表性的研究成果，如RADAR系统、Nibble系统、Weyes系统等室内定位系统。2012年，Google把Wi...

2019-06-04 10:30:30 8526 9

原创模型选择-决策树

决策树（decision tree）是一种基本的分类与回归方法。在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。【决策树组成】：根决策点：对应一个特征判断。决策节点：对应一个特征判断。叶子节点：对应决策结果。根决策点和决策节点又可统一用内部节点来表示。【分类过程】：从根节点开始，对实例的...

2019-06-03 22:25:52 6427 2

原创决策树-ID3

ID3 算法由 Quinlan 在 1986 年提出，核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。关于决策树的内容可参考。【具体方法】：从根结点（root node）出发，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为...

2019-06-03 21:54:52 465

原创模型优化-Adam

Adam（Adaptive Moment Estimation）优化算法实质上是将 Momentum 和 RMSprop 进行结合。Momentum 具有保持惯性的优点，RMSprop 实际上根据参数来调整学习率的衰减，体现环境感知能力。Adam 结合 Momentum 和 RMSprop，因此同时拥有惯性保持和环境感知这两个优点，而这两个优点也是缓解山谷震荡和鞍部停滞的关键动力。简单地介绍了...

2019-06-03 17:10:33 1985

原创模型优化-RMSprop

RMSprop 全称 root mean square prop 算法，和动量方法一样都可以加快梯度下降速度。关于动量方法的内容可以参考这篇博文模型优化-动量方法。动量方法借助前一时刻的动量，从而能够有效地缓解山谷震荡以及鞍部停滞问题。而 RMSprop 对比动量方法的思想有所不同，以 y = wx + b 为例，因为只有两个参数，因此可以通过可视化的方式进行说明。假设纵轴代表参数 b，横轴...

2019-06-02 22:54:41 16561 11

原创模型优化-AdaGrad

在先前介绍的梯度下降算法以及动量方法都有一个共同点，即对于每一个参数都用相同的学习率（步长）进行更新。但是在实际应用中，各参数的重要性肯定是不同的，所以对于不同的参数要进行动态调整，采取不同的学习率，让目标函数能够更快地收敛。本篇博客主要借鉴深度学习优化方法-AdaGrad 以及《百面机器学习》，若构成侵权则立即删除。【做法】：将每一个参数的每一次迭代的梯度取平方，然后累加并开方得到 r，最...

2019-06-02 20:53:25 6099 1

原创模型优化-动量方法

动量梯度下降（Gradient Descent With Momentum），简称为动量方法（Momentum），运行速度几乎总是快于标准的梯度下降算法，并且能够解决随机梯度下降所遇到的山谷震荡以及鞍部停滞问题，这部分内容请阅读上一篇博客梯度下降算法。根据梯度下降算法的参数更新公式：w=w−η∂L(w)∂ww = w - \eta\frac{\partial L(w)}{\partial w...

2019-06-02 18:05:11 2306 2

温染的笔记