关闭

快速排序的优化

1、快速排序的基本思想:    快速排序使用分治的思想,通过一趟排序将待排序列分割成两部分,其中一部分记录的关键字均比另一部分记录的关键字小。之后分别对这两部分记录继续进行排序,以达到整个序列有序的目的。 2、快速排序的三个步骤: (1)选择基准:在待排序列中,按照某种方式挑出一个元素,作为 "基准"(pivot) (2)分割操作:以该基准在序列中的实际位置,把序列分成两个...
阅读(869) 评论(0)

逻辑回归和SVM的区别

1、LR采用log损失,SVM采用合页损失。 2、LR对异常值敏感,SVM对异常值不敏感。 3、在训练集较小时,SVM较适用,而LR需要较多的样本。 4、LR模型找到的那个超平面,是尽量让所有点都远离他,而SVM寻找的那个超平面,是只让最靠近中间分割线的那些点尽量远离,即只用到那些支持向量的样本。 5、对非线性问题的处理方式不同,LR主要靠特征构造,必须组合交叉特征,特征离散化。SVM也可...
阅读(2719) 评论(0)

Logistic Regression 模型简介

本文转自美团技术团队:http://tech.meituan.com/intro_to_logistic_regression.html        逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,主要关注逻辑回归算法的数学模型和参数求解方法,最后也会简单讨论下逻辑回...
阅读(721) 评论(0)

机器学习中的数据清洗与特征处理综述

本文出自美团技术团队:http://tech.meituan.com/machinelearning-data-feature-process.html 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系...
阅读(748) 评论(0)

实例详解机器学习如何解决问题

本文出自美团技术团队:http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言 随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们...
阅读(664) 评论(0)

MapReduce的工作机制

MapReduce的执行流程简单概括如下:用户作业执行JobClient.runJob(conf)代码会在Hadoop集群上将其启动。启动之后JobClient实例会向JobTracker获取JobId,而且客户端会将作业执行需要的作业资源复制到HDFS上,然后将作业提交给JobTracker。JobTracker在本地初始化作业,再从HDFS作业资源中获取作业输入的分割信息,根据这些信息JobT...
阅读(684) 评论(0)

MapReduce执行流程详解

在hadoop中,每个mapreduce任务都会被初始化为一个Job。每个Job又可以分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示,即map函数和reduce函数。map函数接收一个形式的输入,然后产生同样为形式的中间输出,hadoop会负责将所有具有相同中间key值的value集合到一起传递给reduce函数,reduce函数接收一个如<key,(list of...
阅读(906) 评论(0)

用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

以个性化新闻推荐为例,整个过程分成两个mapreduce阶段,由于hadoop流不支持多个mapreduce过程的自动化,所以所有mapreduce过程命令必须人工一个一个的执行。 1、首先需要将原始数据处理成如下形式的两个文件 文件一:Item_user_score.txt 格式:物品—用户—分数 如下图中第一行,物品100655565被用户1634974浏览过,则将分数记为1...
阅读(1947) 评论(0)

SVM如何解决多分类问题

从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。       还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,...
阅读(1748) 评论(2)

不容易产生过拟合的算法

1.SVM         首先,SVM有个L2正则项,在目标函数中加入这个对模型的规模进行了限制。L2正则为什么能保证控制过拟合,这里面就有个哲学思想,叫做奥卡姆剃刀法则,简单来说这个想法就是“能简单说的话,不要复杂的说”。L2正则项就能代表模型的复杂度,根据奥卡姆,如果同样效果那么越简单的模型泛化效果越好。所以最优化过程中尽量追求小的L2的值就会提高泛化能力,也就抑制了过拟合的问题。其次,会...
阅读(1894) 评论(0)

为什么会产生过拟合,有哪些方法可以预防或克服过拟合

为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 什么是过拟合: 所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。 过拟合产生的原因: 出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。 预防或克服措施:...
阅读(2105) 评论(0)

如何进行特征选择?

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解    拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择...
阅读(3198) 评论(2)

利用随机森林做特征选择

随机森林具有准确率高、鲁棒性好、易于使用等优点,这使得它成为了目前最流行的机器学习算法之一。随机森林提供了两种特征选择的方法:mean decrease impurity和mean decrease accuracy。 平均不纯度减少----mean decrease impurity         随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按照...
阅读(7582) 评论(0)

随机森林的优缺点

网上有很多关于随机森林优缺点的总结,但是都只是抄来抄去,并没有对这些优缺点作说明,导致有些看不懂。本人根据自己的理解,对某些优缺点做一下说明,如果理解有不对的地方,欢迎大家指正。         随机森林是一个用随机方式建立的,包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。         随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本中选取一个子集进行训练...
阅读(14326) 评论(6)

GBDT和随机森林的区别

GBDT和随机森林的相同点: 1、都是由多棵树组成 2、最终的结果都是由多棵树一起决定 GBDT和随机森林的不同点: 1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成 2、组成随机森林的树可以并行生成;而GBDT只能是串行生成 3、对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来 PS:本...
阅读(10660) 评论(6)
24条 共2页1 2 下一页 尾页
    个人资料
    • 访问:75747次
    • 积分:933
    • 等级:
    • 排名:千里之外
    • 原创:20篇
    • 转载:4篇
    • 译文:0篇
    • 评论:16条
    文章分类
    文章存档
    最新评论