当前搜索:

[置顶] LightGBM大战XGBoost,谁将夺得桂冠?

0.引言   如果你是一个机器学习社区的活跃成员,你一定知道 提升机器(Boosting Machine)以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单,因为他极其强大。但是,如果数据量极其的大...
阅读(405) 评论(1)

[置顶] XGBoost 中特征重要性和特征选择原理解析与实战

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!
阅读(1014) 评论(0)

[置顶] 数据降维之PCA透彻讲解

数据降维之PCA透彻讲解标签(空格分隔): 机器学习数据降维之PCA透彻讲解 引言 PCA算法的数学基础 1 数据的向量表示及其基本运算 2 向量空间的基 3 基变换的矩阵表示 endpmatrix PCA算法的数学原理 1 方差 2 协方差 3 协方差矩阵 4 协方差矩阵对角化 PCA算法执行过...
阅读(406) 评论(0)

[置顶] 基于XGBoost的特征选择原理与实战

周末填坑……
阅读(1726) 评论(1)

[置顶] 基于物品的协同过滤算法

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!
阅读(196) 评论(0)

[置顶] 基于用户的协同过滤算法详解

0. 前言  基于领域的推荐算法是推荐系统中最基本的算法,此类算法不仅在学术界得到了深入研究,而且在工业界也得到了广泛地应用。基于领域的推荐算法主要分为两大类:一类是基于用户的协同过滤算法(User Based Collaborative Filtering,UserCF);一类是基于物品的协同过...
阅读(226) 评论(0)

[置顶] 推荐算法综述

我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求,推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。
阅读(434) 评论(0)

[置顶] 基于内容的推荐算法

Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (CB) 基本也会是其中的...
阅读(3583) 评论(0)

[置顶] XGBoost参数调优完全指南

1. 简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了...
阅读(438) 评论(0)

[置顶] 数据挖掘中的数据清洗方法大全

在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如 数据缺失 、数据值异常 等。对于这些情况,如果不加以处理,那么会直接影响到最终挖掘模型建立后的使用效果,甚至是使得最终的模型失效,任务失败。所以对于数据挖掘工程师来说,掌握必要的数据清洗方法是很有必要的!      ...
阅读(706) 评论(1)

[置顶] 从损失函数的角度详解常见机器学习算法

1. 机器学习中常见的损失函数  一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来评价模型的预...
阅读(1576) 评论(0)

[置顶] Scikit-Learn实战之——交叉验证

本文将从以下几个方面进行介绍: 简单地讲训练集/测试集分割进行模型验证的缺点; K折交叉验证的做法和优点; 交叉验证如何用于选择调节参数、选择模型、选择特征; 对交叉验证进行升级。 1. 为什么要进行模型验证  众所周知,在机器学习与数据挖掘中进行模型验证的一个重要目的是要选出一个最合适的模型。对...
阅读(774) 评论(0)

[置顶] 史上最详细的XGBoost实战

0. 环境介绍 Python 版 本: 3.6.2 操作系统  : Windows 集成开发环境: PyCharm 1. 安装Python环境 安装Python首先,我们需要安装Python环境。本人选择的是64位版本的Python 3.6.2。去Python官网https://www.pytho...
阅读(8147) 评论(12)

[置顶] 深入浅出——基于密度的聚类方法

本文原作者:微信公众号“燕哥带你学算法”团队的 祝烨 博士,目前在墨尔本从事博士后研究。“The observation of and the search forsimilarities and differences are the basis of all human knowledge.”...
阅读(2679) 评论(0)

[置顶] SVM为什么走下“神坛”?

点题:学界发现真理,产业界利用趋势。“神人”就是既发现了真理又掌握了趋势(To find the truth of nature in academic, and to make business and profits by following the trend of technologies...
阅读(3866) 评论(9)

[置顶] 深度学习入门

0、引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。 1、深度学习的提出  先从深度学习的...
阅读(4435) 评论(0)

[置顶] AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场。百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智...
阅读(24845) 评论(111)

[置顶] 无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!       那么学术界到底有没有成熟公认的关于无监督聚类算法...
阅读(6758) 评论(20)

[置顶] Isolation Forest算法实现详解

本文算法完整实现源码已开源至本人的GitHub(如果对你有帮助,请给一个 star ),参看其中的 iforest 包下的 IForest 和 ITree 两个类: https://github.com/JeemyJohn/AnomalyDetection前言       本文介绍的 Isolat...
阅读(4256) 评论(12)

[置顶] Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://g...
阅读(8553) 评论(24)
    机器学习公众号

    关注微信公众号,专

    为机器学习入门者
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 26万+
    积分: 5133
    排名: 6756
    博客专栏
    最新评论