keepreder

keep red and win title

排序:
默认
按更新时间
按访问量

快速排序的优化

1、快速排序的基本思想:    快速排序使用分治的思想,通过一趟排序将待排序列分割成两部分,其中一部分记录的关键字均比另一部分记录的关键字小。之后分别对这两部分记录继续进行排序,以达到整个序列有序的目的。 2、快速排序的三个步骤: (1)选择基准:在待排序列中,按照某种方式挑出一...

2015-09-09 21:00:00

阅读数:938

评论数:0

逻辑回归和SVM的区别

1、LR采用log损失,SVM采用合页损失。 2、LR对异常值敏感,SVM对异常值不敏感。 3、在训练集较小时,SVM较适用,而LR需要较多的样本。 4、LR模型找到的那个超平面,是尽量让所有点都远离他,而SVM寻找的那个超平面,是只让最靠近中间分割线的那些点尽量远离,即只用到那些支持向量的...

2015-09-01 21:34:52

阅读数:3986

评论数:0

Logistic Regression 模型简介

本文转自美团技术团队:http://tech.meituan.com/intro_to_logistic_regression.html        逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学...

2015-08-13 16:03:59

阅读数:846

评论数:0

机器学习中的数据清洗与特征处理综述

本文出自美团技术团队:http://tech.meituan.com/machinelearning-data-feature-process.html 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这...

2015-08-12 17:37:47

阅读数:892

评论数:0

实例详解机器学习如何解决问题

本文出自美团技术团队:http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言 随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机...

2015-08-12 17:32:36

阅读数:782

评论数:0

MapReduce的工作机制

MapReduce的执行流程简单概括如下:用户作业执行JobClient.runJob(conf)代码会在Hadoop集群上将其启动。启动之后JobClient实例会向JobTracker获取JobId,而且客户端会将作业执行需要的作业资源复制到HDFS上,然后将作业提交给JobTracker。J...

2015-08-10 15:20:52

阅读数:753

评论数:0

MapReduce执行流程详解

在hadoop中,每个mapreduce任务都会被初始化为一个Job。每个Job又可以分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示,即map函数和reduce函数。map函数接收一个形式的输入,然后产生同样为形式的中间输出,hadoop会负责将所有具有相同中间key值...

2015-08-10 14:19:16

阅读数:1172

评论数:0

用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

以个性化新闻推荐为例,整个过程分成两个mapreduce阶段,由于hadoop流不支持多个mapreduce过程的自动化,所以所有mapreduce过程命令必须人工一个一个的执行。 1、首先需要将原始数据处理成如下形式的两个文件 文件一:Item_user_score.txt 格式:物品—用户—分...

2015-08-07 17:44:38

阅读数:3045

评论数:1

SVM如何解决多分类问题

从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。  ...

2015-08-07 14:41:27

阅读数:3759

评论数:2

不容易产生过拟合的算法

1.SVM         首先,SVM有个L2正则项,在目标函数中加入这个对模型的规模进行了限制。L2正则为什么能保证控制过拟合,这里面就有个哲学思想,叫做奥卡姆剃刀法则,简单来说这个想法就是“能简单说的话,不要复杂的说”。L2正则项就能代表模型的复杂度,根据奥卡姆,如果同样效果那么越简单的模型...

2015-08-04 18:46:30

阅读数:2876

评论数:0

为什么会产生过拟合,有哪些方法可以预防或克服过拟合

为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 什么是过拟合: 所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。 过拟合产生的原因: 出现这...

2015-08-04 17:46:09

阅读数:2840

评论数:0

如何进行特征选择?

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解  ...

2015-08-04 16:29:48

阅读数:4816

评论数:2

利用随机森林做特征选择

随机森林具有准确率高、鲁棒性好、易于使用等优点,这使得它成为了目前最流行的机器学习算法之一。随机森林提供了两种特征选择的方法:mean decrease impurity和mean decrease accuracy。 平均不纯度减少----mean decrease impurity     ...

2015-08-04 15:27:36

阅读数:15480

评论数:0

随机森林的优缺点

网上有很多关于随机森林优缺点的总结,但是都只是抄来抄去,并没有对这些优缺点作说明,导致有些看不懂。本人根据自己的理解,对某些优缺点做一下说明,如果理解有不对的地方,欢迎大家指正。         随机森林是一个用随机方式建立的,包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。 ...

2015-08-04 11:12:19

阅读数:25128

评论数:6

GBDT和随机森林的区别

GBDT和随机森林的相同点: 1、都是由多棵树组成 2、最终的结果都是由多棵树一起决定 GBDT和随机森林的不同点: 1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成 2、组成随机森林的树可以并行生成;而GBDT只能是串行生成 3、对于最终的输出结果而言,随机森林采...

2015-08-04 10:20:34

阅读数:13714

评论数:6

GBDT(MART) 迭代决策树入门教程 | 简介

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:                GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该...

2015-08-03 17:20:25

阅读数:1030

评论数:0

决策树的特性及优缺点

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。         决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直...

2015-07-31 12:32:19

阅读数:15347

评论数:0

数据丢失处理方法

训练数据中样本特征值的部分缺失是很棘手的问题,很多文献致力于解决该问题,因为数据直接丢掉太可惜,重新获取代价也昂贵。一些可选的数据丢失处理方法包括: 1、使用可用特征的均值来填补缺失值; 2、使用特殊值来±真补缺失值,如-1; 3、忽略有缺失值的样本; 4、使用相似样本的均值添补缺失值; 5、...

2015-07-30 17:26:41

阅读数:1280

评论数:0

逻辑斯底回归的特征、多分类问题及过拟合问题

首先,Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题,此外还能解决非线性问题。 LR分类器(Logistic Regression Classifier)目的就是从训练数据特征学习出一个0/1分类模型--这个模型以样本特征的线性组合作为自变量,使用logi...

2015-07-30 16:51:32

阅读数:2789

评论数:0

逻辑回归与决策树在分类上的区别

在讨论之前,让我们来看一下逻辑回归和决策树的主要差别: 有些分歧是表面的,例如决策树可以对付缺失值,而逻辑回归需要挖掘人员预先对缺失数据进行处理。但实际上决策树同样要对缺失值做出某种假设和处理。例如CART在遇到一个变量中有缺失情况时,是用次级变量进行替换切分。这种做法在逻辑回归中也可以办到,...

2015-07-30 16:29:15

阅读数:2367

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭