2016年08月_rosenor1

转载为什么要将连续特征离散化

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0. 离散特征的增加和减少都很容易，易于模型的快速迭代；1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给

2016-08-31 19:33:32 3117

转载广义线性模型

今天我来介绍一种在机器学习中应用的比较多的模型，叫做广义线性模型（GLM）。这种模型是把自变量的线性预测函数当作因变量的估计值。在机器学习中，有很多模型都是基于广义线性模型的，比如传统的线性回归模型，最大熵模型，Logistic回归，softmax回归，等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。 Contents 1.

2016-08-31 19:29:09 335

转载机器学习他人面经

前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺

2016-08-31 18:44:44 1089

转载线性判别模型LDA<二>

4. 实例将3维空间上的球体样本点投影到二维上，W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比： PCA选择样本点投影具有最大方差的方向，LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析，应该具有一定的预测功能，比如新来一个样例x，如何确定其类别？

2016-08-31 12:29:11 549

转载线性判别分析（LDA）<->

线性判别分析（Linear Discriminant Analysis）（一）1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。比如回到上次提出的文档中含有“learn”和“stu

2016-08-31 12:26:50 496

转载特征提取的方法

机器学习系列：(三)特征提取与处理　　　　特征提取与处理　　上一章案例中的解释变量都是数值，比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章，我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化，更是机器学习的基础，影响到本书的所有章节。　　分类变量特征提取　　许多机器学习问题都有分类的

2016-08-30 20:37:03 39796

转载特征选择与特征降维的差别

在machine learning中，特征降维和特征选择是两个常见的概念，在应用machine learning来解决问题的论文中经常会出现。对于这两个概念，很多初学者可能不是很清楚他们的区别。很多人都以为特征降维和特征选择的目的都是使数据的维数降低，所以以为它们是一样的，曾经我也这么以为，这个概念上的误区也就导致了我后面对问题的认识不够深入。后来得到老师的指点才彻底搞清楚了

2016-08-30 20:33:20 5906

原创数据降维

知乎：http://www.zhihu.com/topic/20010182/hot

2016-08-27 11:54:25 781

转载过拟合的解决方法2

过拟合的处理处理过拟合的方法：1、去噪（数据清洗）；2、增加训练数据集（收集或构造新数据）3、正则化（L1、L2）4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器（装袋或随机森林）7、选择合适的迭代停止条件8、迭代过程中进行权值衰减（以某个小因子降低每个权值）

2016-08-27 10:40:11 685

转载过拟合的解决方法

防止过拟合的处理方法过拟合我们都知道，在进行数据挖掘或者机器学习模型建立的时候，因为在统计学习中，假设数据满足独立同分布（i.i.d，independently and identically distributed），即当前已产生的数据可以对未来的数据进行推测与模拟，因此都是使用历史数据建立模型，即使用已经产生的数据去训练，然后使用该模型去拟合未来的数据。但是一般独立同分布的

2016-08-27 10:17:33 1946

转载机器学习常见问题

机器学习：伪代码实现：LR、梯度下降、最小二乘、KNN、Kmeans;基本知识：1）监督与非监督区别；2）L1L2区别；3）生成模型和判别模型区别算法的优缺点以及相应解决方案：k-means, KNN, apriori算法原理：LR、KNN、k-means、apriori、ID3（C45,CART）、SVM、神经网络，协同过滤，em算法常见问题：1）

2016-08-27 09:50:04 684

转载 hinge loss

Hinge Loss简介Hinge Loss是一种目标函数（或者说损失函数）的名称，有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。其二分类情况下，公式如下： l(y)=max(0,1−t⋅y)其中，y是预测值（-1到1之间），t为目标值（±1）。其含义为，y的值在-1到1之间就可以了，并不鼓励|y|>1，即并不鼓励

2016-08-26 20:33:27 835

转载聚类

4、聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外，一些聚类技术使用簇原型（即代表簇中其他对象的数据对象）来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意：簇的定义是不精确的，而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习（也叫监督分类或分类）：使用一个由类标号已知的对象开

2016-08-26 15:44:13 18249

转载 knn常见问题汇总

一、kNN概念描述kNN算法又称为k最近邻(k-nearest neighbor classification)分类算法。所谓的k最近邻，就是指最接近的k个邻居（数据），即每个样本都可以由它的K个邻居来表达。kNN算法的核心思想是，在一个含未知样本的空间，可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型。该算法涉及3个主要因素：训练

2016-08-26 15:40:42 9339

转载 adaboost

一、Decision Stumps：Decision Stumps称为单层分类器，主要用作Ensemble Method的组件（弱分类器）。一般只进行一次判定，可以包含两个或者多个叶结点。对于离散数据，可以选取该属性的任意一个数据作为判定的分割点；对于连续数据，可以选择属性的一个阈值做为分割点进行判定（大于该阈值分配到一类，小于该阈值分配到另一类；当然也可以选取多个阈值并由此得到多个叶结点

2016-08-26 15:38:59 919

转载生成模型与判别模型

生成模型与判别模型http://blog.csdn.net/zouxy09 一直在看论文的过程中遇到这个问题，折腾了不少时间，然后是下面的一点理解，不知道正确否。若有错误，还望各位前辈不吝指正，以免小弟一错再错。在此谢过。一、决策函数Y=f(X)或者条件概率分布P(Y|X) 监督学习的任务就是从数据中学习一个模型（也叫分类器），应用

2016-08-26 15:26:58 395

转载样本失衡会对SVM的影响

样本失衡会对SVM的影响假设正类样本远多于负类1、线性可分的情况假设真实数据集如下：由于负类样本量太少，可能会出现下面这种情况使得分隔超平面偏向负类。严格意义上，这种样本不平衡不是因为样本数量的问题，而是因为边界点发生了变化2、线性不可分的情况源数据以及理想的超平面情况如下：很可能由于负类样本太少出现以下这种情况，超平面偏向负类

2016-08-25 21:19:45 10467

转载 lr-svm

LR-SVM(有待重新整理)参考：http://www.zhihu.com/question/26768865总结：1）在线学习：SVM不支持在线学习，LR支持2）不平衡数据：SVM不依赖于数据的分布，所以数据是否平衡影响不是很大（有影响的）；LR依赖于数据的分布所以不平衡的数据需要进行平衡处理3）【解释2】SVM只受少数点的影响，同一类的数据的数量并不影响分类效果

2016-08-25 21:18:22 1077

转载 svmw问题整理

1、为什么要选择最大间隔分类器，请从数学角度上说明？　　　　答：几何间隔与样本的误分次数间存在关系：　　　　　　　　其中的分母就是样本到分类间隔距离，分子中的R是所有样本中的最长向量值2、样本失衡会对SVM的结果产生影响吗？　　　　答：会，超平面会靠近样本少的类别。因为使用的是软间隔分类，而如果对所有类别都是使用同样的惩罚系数，　　　　　　　　则由于

2016-08-25 21:17:11 3041

转载各种算法优缺点

各种分类算法比较最近在学习分类算法，顺便整理了各种分类算法的优缺点。1决策树（Decision Trees）的优缺点决策树的优点：一、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余

2016-08-25 20:55:30 4707

转载机器学习中的损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面

2016-08-24 17:07:40 9026

转载矩阵、向量求导法则

矩阵、向量求导法则复杂矩阵问题求导方法：可以从小到大，从scalar到vector再到matrix。 x is a column vector, A is a matrixd(A∗x)/dx=Ad(A∗x)/dx=A d(xT∗A)/dxT=Ad(xT∗A)/dxT=A d(xT∗A)/dx=ATd(xT∗A)/dx=AT

2016-08-23 19:22:37 327

转载机器学习中的范数规则化之（二）核范数与规则项参数选择

http://blog.csdn.net/zouxy09 上一篇博文，我们聊到了L0，L1和L2范数，这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。三、核范数核范数||W||*是指矩阵奇异值的和，英文称呼叫Nuclear Norm。这个相对于上面火热的L1

2016-08-23 00:52:45 720

转载机器学习中的范数规则化之（一）L0、L1与L2范数

机器学习中的范数规则化之（一）L0、L1与L2范数http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看法，

2016-08-23 00:51:06 547

转载机器学习算法与Python实践之支持向量机（SVM）

机器学习算法与Python实践之支持向量机（SVM）http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。

2016-08-22 23:51:54 1138

转载数据挖掘之异常点检测

异常点检测方法一、基本概念异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因：数据来源于不同的类（异常对象来自于一个与大多数数据对象源（类）不同的源（类）的思想），自然变异，以及数据测量或收集误差。异常检测的方法：（1）基于模型的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇

2016-08-22 22:42:32 2003

转载美团O2O排序解决方案——线下篇

背景针对美团90%的交易发生在移动端的业务特点，我们实现了一套适用于O2O业务的搜索排序技术方案，已在许多产品和子行业中得到应用。在之前的线上篇中，我们已经介绍了服务的框架、排序算法等。本文为线下篇，主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。数据清洗数据清洗的主要工作是为离线模型训练准备标注数据，同时洗掉不合法数据。数据清洗的数据源主要有团购的曝光、点

2016-08-22 21:04:04 264

转载美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家，而搜索在其中起着非常重要的作用。随着业务的发展，美团的商家和团购数正在飞速增长。这一背景下，搜索排序的重要性显得更加突出：排序的优化能帮助用户更便捷地找到满足其需求的商家和团购，改进用户体验，提升转化效果。和传统网页搜索问题相比，美团的搜索排序有自身的特点——90%的交易发生在移动端。一方面，这对排序的个性化提出了更高的要求，例如在“火锅”查询下，北京五道口的

2016-08-22 21:02:52 942

转载机器学习实战笔记——微软小冰的读心术与决策树

原文地址：http://blog.csdn.net/geekmanong/article/details/50570988最近微信朋友圈很多人在转发的一个游戏叫做“微软小冰读心术”，游戏的规则很简单：参与游戏的一方在脑海里想好一个人的名字，然后微软小冰会问你15个问题，问题的答案只能用“是”、“不是”或者“不知道”回答。微

2016-08-22 20:54:35 1717

转载 Logistic Regression 模型简介

Logistic Regression 模型简介逻辑回归（Logistic Regression）是机器学习中的一种分类模型，由于算法的简单和高效，在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇，主要关注逻辑回归算法的数学模型和参数求解方法，最后也会简单讨论下逻辑回归和贝叶斯分类的关系，以及在多分类问题上的推广。逻辑回归问题实

2016-08-22 20:46:22 652

转载批量梯度下降与随机梯度下降

摘要批量梯度下降与随机梯度下降下面的h(x)是要拟合的函数，J(theta)损失函数，theta是参数，要迭代求解的值，theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数，j是参数的个数。1、批量梯度下降（BGD）的求解思路如下：（1）将J(theta)对theta求偏导，得到每个theta对应的的梯度（2）由于

2016-08-22 20:40:53 786

转载从指数分布族去推导出广义线性模型

摘要从指数分布族去推导出广义线性模型指数分布族的定义：若一类概率分布可以写成如下形式，那么它就属于指数分布族：η - 自然参数，通常是一个实数T(y) – 充分统计量，通常，T(y)=y，实际上是一个概率分布的充分统计量（统计学知识）对于给定的a，b，T三个函数，上式定义了一个以η为参数的概率分布集合，即改变η可以得到不同的概率分布。极限定理得）

2016-08-22 20:39:28 931

转载机器学习中防止过拟合的处理方法

机器学习中防止过拟合的处理方法摘要转载一篇优秀的防止过拟合的方法总结过拟合我们都知道，在进行数据挖掘或者机器学习模型建立的时候，因为在统计学习中，假设数据满足独立同分布（i.i.d，independently and identically distributed），即当前已产生的数据可以对未来的数据进行推测与模拟，因此都是使用历史数据建立模型，即使用已

2016-08-22 20:36:28 1051

转载美团机器学习InAction系列—实例详解机器学习如何解决问题

原文 http://tech.meituan.com/mt-mlinaction-how-to-ml.html前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学

2016-08-22 20:34:51 897

转载美团推荐算法实战

转美团推荐算法实践摘要美团的推荐算法实践前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段：一

2016-08-22 20:33:09 4455

转载特征工程

转机器学习中的数据清洗与特征处理综述摘要本文转自美团技术团队（见转载链接），非常优秀的博文，该文通过一个实例来介绍特征选择和处理上的作法，很有借鉴意义，转发做记录背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭

2016-08-22 17:15:55 5621

转载四大机器学习降维方法

引言：机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理

2016-08-22 16:39:25 95328

转载机器学习中的评价标准

信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC摘要本文转载一篇信息检索相关的评价指标，和机器学习的评价指标差不多，在此对这些评价指标做些了解。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式:

2016-08-22 14:20:14 625

转载最小二乘法与极大似然估计的区别与联系

最小二乘法基本思想简单地说，最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近（在古汉语中“平方”称为“二乘”），“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小 θ表示要求的参数，Yi为观测值(向量)，f（xi|θ)为理论值。最小二乘的作用用于得到回归方程的参

2016-08-21 16:41:11 20512

转载离散和维数灾难

零：一些认识涉及到机器人的操控的时候，很多事情可能并不是supervised和unsupervised learning能够解决的，比如说andrew ng之前一直提到的自动控制直升飞机，另一个例子就是下棋，有可能很久之前的一步棋就埋下了后面失败的伏笔，而机器很难去判断一步棋的好坏。这就是增强学习需要解决的问题。注:这里的Value价值即是很多书上写的Q值，貌似也有点差别，在于Q可

2016-08-21 15:02:00 1989

空空如也

空空如也