学习AI算法,请关注微信公众号:机器学习算法全栈工程师……

对机器学习,深度学习QQ群:252682362。注明自己是机器学习爱好者!

排序:
默认
按更新时间
按访问量

LightGBM大战XGBoost,谁将夺得桂冠?

0.引言   如果你是一个机器学习社区的活跃成员,你一定知道 提升机器(Boosting Machine)以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单,因为他极其强大。但是,如果数据量极其的大...

2018-04-13 15:36:45

阅读数:1001

评论数:2

XGBoost 中特征重要性和特征选择原理解析与实战

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!

2017-12-17 23:05:23

阅读数:2697

评论数:0

基于XGBoost的特征选择原理与实战

周末填坑……

2017-12-13 20:34:40

阅读数:2214

评论数:2

基于物品的协同过滤算法

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!

2017-11-30 19:12:37

阅读数:319

评论数:0

基于用户的协同过滤算法详解

0. 前言  基于领域的推荐算法是推荐系统中最基本的算法,此类算法不仅在学术界得到了深入研究,而且在工业界也得到了广泛地应用。基于领域的推荐算法主要分为两大类:一类是基于用户的协同过滤算法(User Based Collaborative Filtering,UserCF);一类是基于物品的协同过...

2017-11-30 19:11:00

阅读数:583

评论数:0

推荐算法综述

我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求,推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。

2017-11-24 23:10:03

阅读数:761

评论数:0

基于内容的推荐算法

Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (CB) 基本也会是其中的...

2017-11-16 22:44:58

阅读数:5708

评论数:0

XGBoost参数调优完全指南

1. 简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了...

2017-10-22 19:40:18

阅读数:580

评论数:0

数据挖掘中的数据清洗方法大全

在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如 数据缺失 、数据值异常 等。对于这些情况,如果不加以处理,那么会直接影响到最终挖掘模型建立后的使用效果,甚至是使得最终的模型失效,任务失败。所以对于数据挖掘工程师来说,掌握必要的数据清洗方法是很有必要的!      ...

2017-10-21 23:47:26

阅读数:1597

评论数:1

从损失函数的角度详解常见机器学习算法

1. 机器学习中常见的损失函数  一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来评价模型的预...

2017-10-18 17:32:37

阅读数:2338

评论数:0

Scikit-Learn实战之——交叉验证

本文将从以下几个方面进行介绍: 简单地讲训练集/测试集分割进行模型验证的缺点; K折交叉验证的做法和优点; 交叉验证如何用于选择调节参数、选择模型、选择特征; 对交叉验证进行升级。 1. 为什么要进行模型验证  众所周知,在机器学习与数据挖掘中进行模型验证的一个重要目的是要选出一个最合适的模型。对...

2017-10-04 21:16:22

阅读数:1059

评论数:0

史上最详细的XGBoost实战

0. 环境介绍 Python 版 本: 3.6.2 操作系统  : Windows 集成开发环境: PyCharm 1. 安装Python环境 安装Python首先,我们需要安装Python环境。本人选择的是64位版本的Python 3.6.2。去Python官网https://www.pytho...

2017-10-03 20:45:16

阅读数:14391

评论数:13

深入浅出——基于密度的聚类方法

本文原作者:微信公众号“燕哥带你学算法”团队的 祝烨 博士,目前在墨尔本从事博士后研究。“The observation of and the search forsimilarities and differences are the basis of all human knowledge.”...

2017-09-10 23:31:59

阅读数:8481

评论数:0

SVM为什么走下“神坛”?

点题:学界发现真理,产业界利用趋势。“神人”就是既发现了真理又掌握了趋势(To find the truth of nature in academic, and to make business and profits by following the trend of technologies...

2017-08-27 13:34:02

阅读数:4634

评论数:9

深度学习入门

0、引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。 1、深度学习的提出  先从深度学习的...

2017-08-13 11:16:52

阅读数:4700

评论数:0

AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场。百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智...

2017-07-09 16:13:40

阅读数:26465

评论数:111

无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!       那么学术界到底有没有成熟公认的关于无监督聚类算法...

2017-07-03 21:57:29

阅读数:9563

评论数:21

Isolation Forest算法实现详解

本文算法完整实现源码已开源至本人的GitHub(如果对你有帮助,请给一个 star ),参看其中的 iforest 包下的 IForest 和 ITree 两个类: https://github.com/JeemyJohn/AnomalyDetection前言       本文介绍的 Isolat...

2017-06-26 22:32:29

阅读数:7278

评论数:15

Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://g...

2017-06-18 18:39:18

阅读数:15182

评论数:29

机器学习中的数据不平衡解决方案大全

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。       数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。   ...

2017-06-09 19:37:12

阅读数:25419

评论数:38

提示
确定要删除当前文章?
取消 删除