2018年06月_图灵的猫.

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创通俗理解Meanshift均值漂移算法

以上是官方的说法，即书上的定义，我的理解就是，在d维空间中，任选一个点，然后以这个点为圆心，h为半径做一个高维球，因为有d维，d可能大于2，所以是高维球。真正大牛的人就能创造算法，例如像meanshift，em这个样的算法，这样的创新才能推动整个学科的发展。还有的人就是把算法运用的实际的运用中，推动整个工业进步，也就是技术的进步。解释一下K()核函数，h为半径，Ck,d/nhd 为单位密度，要使得上式f得到最大，最容易想到的就是对上式进行求导，的确meanshift就是对上式进行求导.

2018-06-30 15:37:07 11676 4

翻译 R代码模拟世界杯1000次，速成2018世界杯预言帝

本文翻译自 Mango Solution 的博客，作者杨环，就职于 Mango Solutions，担任数据科学咨询顾问。本文已获得原作者授权。几周前的皇家马德里 VS 利物浦的欧冠总决赛是我差不多十年来唯一严肃认真看完的一场比赛，但我居然会挺胸抬头地预测捧起 2018 年大力神杯的会是巴西队？如果（真假伪）各界球迷朋友发现本文口感略柴，可能是因为我的足球类自然语言处理能力欠佳。不要紧，你可以关注...

2018-06-30 11:29:35 2439

原创 Python2和Python3的区别，以及为什么选Python3的原因

其次，Python 2和Python 3确实有一些差异，但是，并没有大家想象的那么大，Python 2和Python 3之间的差异不到Python语法的10%，我们可以快速地了解哪些Python 2里面的语法在Python 3中已经被弃用，在我们写代码的过程中，规避掉这一部分语法即可。所以，如果你说，我一开始学的就是Python 3，Python 3也是Python的未来，我不想去了解和学习Python 2。所以，学习Python，想直接抛弃Python 2学习Python 3，几乎是不可能的事情。

2018-06-29 12:28:13 183665 30

原创隐马尔可夫模型通俗导论

我的机器学习教程「美团」算法工程师带你入门机器学习以及「三分钟系列」数据结构与算法已经开始更新了，欢迎大家订阅~这篇专栏整合了这几年的算法知识，简单易懂，也将是我实体书的BLOG版。欢迎大家扫码关注微信公众号「图灵的猫」，除了有更多AI、算法、Python相关文章分享，还有免费的SSR节点和外网学习资料。其他平台（微信/知乎/B站）也是同名「图灵的猫」，不要迷路哦~...

2018-06-20 14:36:55 521

转载 SMO算法最通俗易懂的解释

SVM通常用对偶问题来求解，这样的好处有两个：1、变量只有N个（N为训练集中的样本个数），原始问题中的变量数量与样本点的特征个数相同，当样本特征非常多时，求解难度较大。2、可以方便地引入核函数，求解非线性SVM。求解对偶问题，常用的算法是SMO，彻底地理解这个算法对初学者有一定难度，本文尝试模拟算法作者发明该算法的思考过程，让大家轻轻松松理解SMO算法。文中的“我”拟指发明算法的大神。

2018-06-18 13:32:56 70887 25

原创 Secondary Namenode工作机制详解

2018-06-17 23:19:53 3081

原创一文读懂Xgboost

xgboost算法的步骤和GB基本相同，都是首先初始化为一个常数，gb是根据一阶导数ri，xgboost是根据一阶导数gi和二阶导数hi，迭代生成基学习器，相加更新学习器。(2). GB中使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。(1). xgboost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。对上式做二阶泰勒展开：g为一阶导数，h为二阶导数。

2018-06-16 23:45:44 1273

原创对梯度提升树(GBDT)的通俗理解

针对这一问题，Freidman提出了梯度提升算法：利用最速下降的近似方法，即利用损失函数的负梯度在当前模型的值，作为回归问题中提升树算法的残差的近似值，拟合一个回归树。对于Boosting来说，每一步我们都会在上一轮的基础上更加拟合原数据，所以可以保证偏差（bias）,所以对于每个基分类器来说，问题就在于如何选择variance更小的分类器，即更简单的分类器，所以我们选择了深度很浅的决策树。当模型越简单时，即使我们再换一组数据，最后得出的学习器和之前的学习器的差别就不那么大，模型的方差很小。

2018-06-16 20:07:43 23147 3

原创随机森林(Random Forest)通俗教程

作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛，包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛，参赛者对随机森林的使用占有相当高的比例。

2018-06-16 19:27:47 32649 6

原创集成学习：Boosting与Bagging

根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；而在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分. 随机森林简单、容易实现、计算开销小.效果能使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升.Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重.

2018-06-16 19:04:21 715

原创 Coursera机器学习课后作业Matlab代码（1~9周）

这个月在coursera上开始刷ng老师的课（主要是为了复习），每一周都有编程作业，有的难度不小，有的BUG频出。我自己经常死磕半天才写出来，实在没办法了才去GITHUB上找标准答案对着改。为了方便大家检验查阅，这里放上每个周的（目前刷到第六周）MATLAB作业代码。可以用来借鉴，但不建议大家直接复制粘贴。PS. 所有代码已经submit 100%通过。想上课还没报名的同学可以申请看看。，别忘了star哦~

2018-06-15 21:08:22 6688 3

原创深度学习：前馈神经网络与BP反向传播

前馈神经网络（feedforward neural network），简称前馈网络，是人工神经网络的一种。在此种神经网络中，各神经元从输入层开始，接收前一级输入，并输出到下一级，直至输出层。整个网络中无反馈，可用一个有向无环图表示。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元，同一层的神经元之间没有互相连接，层间信息的传送只沿一个方向进行。其中第一层称为输入层。最后一层为输出层．中间为隐含层，简称隐层。隐层可以是一层。也可以是多层。

2018-06-15 20:42:15 5990 1

原创深度学习：什么是自编码器（Autoencoder）

该过程可以看作是对输入数据的压缩编码，将高维的原始数据用低维的向量表示，使压缩后的低维向量能保留输入数据的典型特征，从而能够较为方便的恢复原始数据。例如下图所示，将手写数字图片进行编码，编码后生成的 ϕ1ϕ1, ϕ2ϕ2, ϕ3ϕ3, ϕ4ϕ4, ϕ5ϕ5, ϕ6ϕ6 较完整的保留了原始图像的典型特征，因此可较容易地通过解码恢复出原始图像。autoencoder是一种无监督的学习算法，主要用于数据的降维或者特征的抽取，在深度学习中，autoencoder可用于在训练阶段开始前，确定权重矩阵WW的初始值。

2018-06-14 20:25:48 51713 4

原创深入理解目标检测与YOLO（从v1到v3）

对小目标检测，有很多新的算法，但是YOLO V3版本却做到了，它对这种距离很近的目标或者小目标有很好的鲁棒性，虽然不能百分百检测，但是这个难题得到了很大程度的解决。YOLO V2是一个纵向自上而下的网络架构，随着通道数目的不断增加，FLOPS是不断增加的，而V3网络架构是横纵交叉的，看着卷积层多，其实很多通道的卷积层没有继承性，另外，虽然V3增加了anchor centroid，但是对GT的估计变得更加简单，每个GT只匹配一个先验框，而且每个尺度只预测3个框，V2预测5个框，这样的话也降低了复杂度。

2018-06-14 16:20:54 6027 4

原创机器学习：提升算法之Adaboost

说了这么多，也举了这么多例子，就是为了让你从细节上明白Adaboost的基本原理，博主认为理解Adaboost的两种权重的关系是理解Adaboost算法的关键所在。

2018-06-14 13:13:19 1377

翻译机器学习：维度灾难（Curse of Dimensionality）

在三维情况下，要覆盖特征空间20%的体积，则需要在每个维度上取得58%的取值范围...在维度接近一定程度时，要取得同样的训练样本数量，则几乎要在每个维度上取得接近100%的取值范围，或者增加总样本数量，但样本数量也总是有限的。换句话说，通过使用更少的特征，避免了维数灾难的发生(也即避免了高维情况下的过拟合)。维数灾难与过拟合：在上面这个分类的例子中，我们假设猫和狗图片的数量是有限的(实际上也确实如此，样本数量总是有限的)，就假设有10张图片吧，接下来我们就用这仅有的10张图片来训练我们的分类器。

2018-06-11 16:08:11 14654 1

原创机器学习tips：什么是pipeline？

一个典型的机器学习构建包含若干个过程以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水线式工作流程则存在着可行性，对利用spark进行机器学习的用户来说，流水线式机器学习比单个步骤独立建模更加高效、易用。管道机制在机器学习算法中得以应用的根源在于，参数集在新数据集（比如测试集）上的。管道机制实现了对全部步骤的流式化封装和管理（）。注意：管道机制更像是编程技巧的创新，而非算法的创新。

2018-06-11 15:54:29 41034 1

原创什么是数据脱敏(Data Masking)？

数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为：指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。生活中不乏数据脱敏的例子，比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理，甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。

2018-06-11 15:45:21 19235

原创聊聊机器学习中的损失函数(hinge/soft/square/0-1)

机器学习作为一种优化方法，学习目标就是找到优化的目标函数——损失函数和正则项的组合；有了目标函数的“正确的打开方式”，才能通过合适的机器学习算法求解优化。不同机器学习方法的损失函数有差异，合理理解各种损失优化函数的的特点更有利于我们对相关算法的理解。

2018-06-07 14:34:10 10749 2

原创对核函数(kernel)最通俗易懂的理解

左图为原数据，右图为映射到三维的数据，可以看出：同样是降到1维，先通过Kernel映射到（Kernel是映射的内积，不要弄乱了）三维，再投影到1维，就容易分离开，这就是Kernel在PCA降维中的应用，本质还是对原有数据增加维度。在实用中，很多使用者都是盲目地试验各种核函数，并扫描其中的参数，选择效果最好的。的内积，映射函数本身仅仅是一种映射关系，并没有增加维度的特性，不过可以利用核函数的特性，构造可以增加维度的核函数，这通常是我们希望的。二维映射到三维，区分就更容易了，这是聚类、分类常用核函数的原因。

2018-06-07 10:23:25 132052 9

转载机器学习之旅：支持向量机通俗导论（理解SVM的三层境界）

支持向量机通俗导论（理解SVM的三层境界）作者：July、pluskid ；致谢：白石、JerryLead出处：结构之法算法之道blog。前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了(见文末参考链接)，但...

2018-06-05 11:40:48 1003

原创 Hadoop：一文详解MapReduce的工作机制

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，一是软件框架，二是并行处理，三是可靠且容错，四是大规模集群，五是海量数据集。因此，对于MapReduce，可以简洁地认为，它是一个软件框架，海量数据是它的“菜”，它在大规模集群上以一种可靠且容错的方式并行地“烹饪这道菜”。

2018-06-04 10:33:01 6747 3

原创什么是熵（entropy）？

下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。熵：如果一个随机变量X的可能取值为X = {x1, x2,…, xk}，其概率分布为P(X = xi) = pi（i = 1,2, ..., n），则随机变量X的熵定义为：把最前面的负号放到最后，便成了：上面两个熵的公式，无论用哪个都行，而且两者等价，一个意思（这两个公式在下文中都会用到）。联合熵：两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。条件熵。

2018-06-03 19:56:14 94448 1

原创机器学习之旅：三分钟读懂最大熵模型

最大熵模型假设分类模型是一个条件概率分布P(Y|X)P(Y|X),X为特征，Y为输出。给定一个训练集(x(1),y(1)),(x(2),y(2)),...，(x(m),y(m))(x(1),y(1)),(x(2),y(2)),...，(x(m),y(m)),其中x为n维特征向量，y为类别输出。我们的目标就是用最大熵模型选择一个最好的分类类型。

2018-06-03 18:46:59 3267