自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

keepreder

keep red and win title

  • 博客(14)
  • 收藏
  • 关注

转载 Logistic Regression 模型简介

本文转自美团技术团队:http://tech.meituan.com/intro_to_logistic_regression.html       逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,主要关注逻辑回归算法的数学模型和参数求解方法,最后也会简单讨论下逻辑回

2015-08-13 16:03:59 1365

转载 机器学习中的数据清洗与特征处理综述

本文出自美团技术团队:http://tech.meituan.com/machinelearning-data-feature-process.html背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系

2015-08-12 17:37:47 1272

转载 实例详解机器学习如何解决问题

本文出自美团技术团队:http://tech.meituan.com/mt-mlinaction-how-to-ml.html前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们

2015-08-12 17:32:36 1160

原创 MapReduce的工作机制

MapReduce的执行流程简单概括如下:用户作业执行JobClient.runJob(conf)代码会在Hadoop集群上将其启动。启动之后JobClient实例会向JobTracker获取JobId,而且客户端会将作业执行需要的作业资源复制到HDFS上,然后将作业提交给JobTracker。JobTracker在本地初始化作业,再从HDFS作业资源中获取作业输入的分割信息,根据这些信息JobT

2015-08-10 15:20:52 1018

原创 MapReduce执行流程详解

在hadoop中,每个mapreduce任务都会被初始化为一个Job。每个Job又可以分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示,即map函数和reduce函数。map函数接收一个形式的输入,然后产生同样为形式的中间输出,hadoop会负责将所有具有相同中间key值的value集合到一起传递给reduce函数,reduce函数接收一个如<key,(list of

2015-08-10 14:19:16 1758

原创 用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

以个性化新闻推荐为例,整个过程分成两个mapreduce阶段,由于hadoop流不支持多个mapreduce过程的自动化,所以所有mapreduce过程命令必须人工一个一个的执行。1、首先需要将原始数据处理成如下形式的两个文件文件一:Item_user_score.txt格式:物品—用户—分数如下图中第一行,物品100655565被用户1634974浏览过,则将分数记为1

2015-08-07 17:44:38 5392 1

原创 SVM如何解决多分类问题

从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。      还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,

2015-08-07 14:41:27 10897 2

原创 不容易产生过拟合的算法

1.SVM        首先,SVM有个L2正则项,在目标函数中加入这个对模型的规模进行了限制。L2正则为什么能保证控制过拟合,这里面就有个哲学思想,叫做奥卡姆剃刀法则,简单来说这个想法就是“能简单说的话,不要复杂的说”。L2正则项就能代表模型的复杂度,根据奥卡姆,如果同样效果那么越简单的模型泛化效果越好。所以最优化过程中尽量追求小的L2的值就会提高泛化能力,也就抑制了过拟合的问题。其次,会

2015-08-04 18:46:30 4890

原创 为什么会产生过拟合,有哪些方法可以预防或克服过拟合

为什么会产生过拟合,有哪些方法可以预防或克服过拟合?什么是过拟合:所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。过拟合产生的原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。预防或克服措施:

2015-08-04 17:46:09 6187

原创 如何进行特征选择?

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解   拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择

2015-08-04 16:29:48 14087 3

原创 利用随机森林做特征选择

随机森林具有准确率高、鲁棒性好、易于使用等优点,这使得它成为了目前最流行的机器学习算法之一。随机森林提供了两种特征选择的方法:mean decrease impurity和mean decrease accuracy。平均不纯度减少----mean decrease impurity        随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按照

2015-08-04 15:27:36 34539

原创 随机森林的优缺点

网上有很多关于随机森林优缺点的总结,但是都只是抄来抄去,并没有对这些优缺点作说明,导致有些看不懂。本人根据自己的理解,对某些优缺点做一下说明,如果理解有不对的地方,欢迎大家指正。        随机森林是一个用随机方式建立的,包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。        随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本中选取一个子集进行训练

2015-08-04 11:12:19 61808 6

原创 GBDT和随机森林的区别

GBDT和随机森林的相同点:1、都是由多棵树组成2、最终的结果都是由多棵树一起决定GBDT和随机森林的不同点:1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成2、组成随机森林的树可以并行生成;而GBDT只能是串行生成3、对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来PS:本

2015-08-04 10:20:34 17226 6

转载 GBDT(MART) 迭代决策树入门教程 | 简介

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:              GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g

2015-08-03 17:20:25 1185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除