[置顶] XGBoost参数调优完全指南

1. 简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现,参数的调整十分必要。在解决实际问题的时候,有些问题是很难回答的——你...
阅读(46) 评论(0)

[置顶] 数据挖掘中的数据清洗方法大全

在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如 数据缺失 、数据值异常 等。对于这些情况,如果不加以处理,那么会直接影响到最终挖掘模型建立后的使用效果,甚至是使得最终的模型失效,任务失败。所以对于数据挖掘工程师来说,掌握必要的数据清洗方法是很有必要的!      接下来本文就依次讲解如何处理 数据值缺失 和 数据值异常 两种情况的处理。1. 缺失值的处理  如下...
阅读(22) 评论(0)

[置顶] 从损失函数的角度详解常见机器学习算法

先记下,后续有时间再补上...
阅读(33) 评论(0)

[置顶] Scikit-Learn实战之——交叉验证

本文将从以下几个方面进行介绍: 简单地讲训练集/测试集分割进行模型验证的缺点; K折交叉验证的做法和优点; 交叉验证如何用于选择调节参数、选择模型、选择特征; 对交叉验证进行升级。 1. 为什么要进行模型验证  众所周知,在机器学习与数据挖掘中进行模型验证的一个重要目的是要选出一个最合适的模型。对于有监督学习而言,我们希望模型对于未知数据具有很强的泛化能力,所以就需要模型验证这一过程来评估不同的模型...
阅读(256) 评论(1)

[置顶] 史上最详细的XGBoost实战

0. 环境介绍 Python 版 本: 3.6.2 操作系统  : Windows 集成开发环境: PyCharm 1. 安装Python环境 安装Python首先,我们需要安装Python环境。本人选择的是64位版本的Python 3.6.2。去Python官网https://www.python.org/选择相应的版本并下载。如下如所示: 接下来安装,并最终选择将Python加入环境变量中...
阅读(2683) 评论(8)

[置顶] 机器学习面试题

目前我整理了一些机器学习面试题,欢迎大家留言给出正确答案!1、LR为什么用sigmoid函数。这个函数有什么优点和缺点?为什么不用其他函数?2、决策树如何防止过拟合3、KKT条件用哪些,完整描述4、L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节.5、Python如何定义一个私有变量6、说一下进程和线程7、K-means聚类个数选择,做什么样的试验来确定K8、有哪些线程安全的函数9、数据库...
阅读(242) 评论(0)

[置顶] 深入浅出——基于密度的聚类方法

本文原作者:微信公众号“燕哥带你学算法”团队的 祝烨 博士,目前在墨尔本从事博士后研究。“The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL“人类所有知识的基础就是观察和寻找相似与相异” —— 阿尔弗雷德·伯...
阅读(1293) 评论(0)

[置顶] SVM为什么走下“神坛”?

点题:学界发现真理,产业界利用趋势。“神人”就是既发现了真理又掌握了趋势(To find the truth of nature in academic, and to make business and profits by following the trend of technologies in industries.)。 1、历史的惊人巧合  曾几何时,SVM在神经网络研究和应用中几乎无...
阅读(3021) 评论(9)

[置顶] 深度学习入门

0、引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。 1、深度学习的提出  先从深度学习的提出开始说起,深度学习的概念是由Hinton在2006年提出,他当时首次提出了深度信念网络(DBN),相...
阅读(3798) 评论(0)

[置顶] AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场。百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智能人才。现在在北京,只要是机器学习算法岗位,少则月薪 20k,甚至100k 以上……  不错,新时代时代...
阅读(21631) 评论(103)

[置顶] 无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!       那么学术界到底有没有成熟公认的关于无监督聚类算法的评价指标呢?本文就是为了解决大家的这个疑惑而写的,并且事先明确的告诉大家,关于无监督聚类算法结果好坏的...
阅读(4300) 评论(20)

[置顶] Isolation Forest算法实现详解

本文算法完整实现源码已开源至本人的GitHub(如果对你有帮助,请给一个 star ),参看其中的 iforest 包下的 IForest 和 ITree 两个类: https://github.com/JeemyJohn/AnomalyDetection前言       本文介绍的 Isolation Forest 算法原理请参看我的博客:Isolation Forest异常检测算法原理详解,本文...
阅读(2670) 评论(12)

[置顶] Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://github.com/JeemyJohn/AnomalyDetection。前言       随着机器学习...
阅读(4104) 评论(24)

[置顶] 机器学习中的数据不平衡解决方案大全

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。       数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。       本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集...
阅读(18743) 评论(38)

[置顶] TensorFlow官网访问不了

下面的方案已经行不通了,原因你们猜!直接访问: https://tensorflow.google.cn 对机器学习感兴趣的小伙伴请关注微信公众号:燕哥带你学算法        相信很多搞深度学习的小伙伴最近都为访问不了 TensorFlow官网 而苦恼吧!虽然网上也给出了一些方法,但是却缺少一个很重要的步骤。接下来,我就给大家讲解一个完整的过程,大牛绕过。1、更改Hosts      在...
阅读(5289) 评论(7)

[置顶] IDEA、PyCharm激活服务器地址

在License server中输入:http://btsha.com:41017 对机器学习,人工智能感兴趣的小伙伴,请关注我的公众号:...
阅读(2338) 评论(4)

[置顶] 深度神经网络训练的必知技巧

本文主要介绍8种实现细节的技巧或tricks:数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。1. 数据增广       在不改变图像类别的情况下,增加数据量,能提高模型的泛化能力。      自然图像的数据增广方式包括很多,如常用的水平翻转(horizontally flipping),一定程度的位移或者裁剪和颜色抖动...
阅读(6510) 评论(34)

[置顶] Scikit-learn实战之SVM回归分析、密度估计、异常点检测

1. SVM回归       SVM的支持向量的方法能够被扩展以解决回归问题。这种方法被称之为SVR(Support Vector Regression 支持向量回归)。该模型是由SVC(支持向量分类)演化而来,它依然依赖于训练数据的子集。因为构建Model的损失函数并不关心位于边缘上的训练点(样本)集。类似的,由支持向量回归(SVR)生成的模型仅仅依赖于训练数据的某个子集,因为构建模型的损失函数忽...
阅读(2801) 评论(4)

[置顶] Scikit-learn实战之SVM分类

Support vector machines (SVMs) 是一系列的有监督的学习方法,主要用于分类、回归和异常点检测。1. SVM的主要优点如下: 在高维空间有效; 当样本空间的维度比样本数高时任然有效; 使用训练样本的子集构建决策函数(这些样本点被称之为支持向量),因此它的内存效率很高; SVM是一个全能型的机器学习算法:可以指定不同的核函数的决策函数,提供了常见的核函数,但是也可以指定自定义...
阅读(3130) 评论(8)

股票利益最大化

1. 题目给出一个包含N个元素的数组,数组中的每个元素代表每一天的股票的买卖价格。现在给你个任务是在任意的时刻先买股票,之后卖出股票。要求是使得买卖股票的利益最大化,算法的时间和空间复杂度尽可能达到最优。2. 解题思路...
阅读(19) 评论(0)

燕哥CSDN免费视频课程

前言  对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,作为一名对机器学习心有向往的程序员,我们该以什么样的姿势开始呢?  CSDN知名博主们开设了系列免费直播课程:《AI时代,我该如何学习机器学习?》,他们将在此课程中为你逐一解答。直播时间  9月7号和9月12号晚20:00,共2场!课程大纲 第一节人工智能时代为什么选Python 机器学习核心库介绍(p...
阅读(1148) 评论(0)

经典算法题之Maximal Square

前言     Maximal Square是道非常有意思的算法题。它是一个典型的动态规划问题,同时也是2017京东面试题,2016华为机考题。题目描述  有一个n*m大小的矩阵,其元素值为0或者1,求这个矩阵中全有1组成的最大方块其大小。输入描述  每个输入包含一个测试用例。每个测试用例的第一行包含两个整数n(2<= n <= 50),m(2<= n <= 50),分别表示矩阵matrix的行数与...
阅读(207) 评论(0)

Google面试题

1. 题目描述:  一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。2. 题目分析:翻译一下就是: 描述:有一行N个数,这些数都比N小,而且有重复。 要求:让你找到重复的数,满足“O(1)空间和O(n)时间”。 有人可能不理解空间复杂度和时间复杂度: 时间复杂度:执行算法所需要的计算工作量; 空间复杂度:执行这个算法所...
阅读(221) 评论(0)

普里姆(Prim)算法

普里姆(Prim)算法,和克鲁斯卡尔算法一样,是用来求加权连通图的最小生成树的算法。1、基本思想  对于图G4而言,V是所有顶点的集合;现在,设置两个新的集合U和T,其中U用于存放G的最小生成树中的顶点,T存放G的最小生成树中的边。      从所有uЄU,vЄ(V-U) (V-U表示出去U的所有顶点)的边中选取权值最小的边(u, v),将顶点v加入集合U中,将边(u, v)加入集合T中,如...
阅读(358) 评论(0)

数据挖掘中的利器--XGBoost理论篇

XGBoost是各种数据挖掘或机器学习算法类比赛中每个团队都会使用且精度相对最好的算法之一(Deep Learning算法除外)。也就是说,对于刚转向机器学习领域的同胞们,在掌握数据挖掘的基本常识概念之后,要想在比赛中有所收获,掌握XGBoost算法也是当务之急。1、XGBoost算法优点  XGBoost 是 Extreme Gradient Boosting的简称。它是Gradient Boo...
阅读(1892) 评论(3)

朴素贝叶斯算法详解

1. 引言     朴素贝叶斯算法(Naive Bayes)是机器学习中常见的基本算法之一,主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入 xx 利用贝叶斯定理求出后验概率最大的输出 yy 。      基于以上的解释,我们知道:1. 该算法的理论核心是贝叶斯定理;...
阅读(687) 评论(0)

机器学习该如何入门

引言  可能你对这个名字叫“机器学习”的家伙不是特别的了解,但是相信用过iPhone的同学都知道iPhone的语音助手Siri,它能帮你打电话,查看天气等等;相信大家尤其是美女童鞋都用过美颜相机,它能自动化的给我们拍出更漂亮的照片;逛京东淘宝的时候,细心的童鞋应该也会发现它们会有一个栏目“猜你喜欢”;最近异军突起的新闻客户端软件今日头条,它们就是会根据分析你的日常喜好给每个人推荐不同的新闻……没错,...
阅读(5552) 评论(31)

Amazon面试题

亚马逊面试题:如下所示的Map中,0代表海水,1代表岛屿,其中每一个岛屿与其八领域的区间的小岛能相连组成岛屿群。写代码,统计Map中岛屿个数。/* Q1. Map [ 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0...
阅读(757) 评论(0)

超参数的选择与交叉验证

1. 超参数有哪些  与超参数对应的是参数。参数是可以在模型中通过BP(反向传播)进行更新学习的参数,例如各种权值矩阵,偏移量等等。超参数是需要进行程序员自己选择的参数,无法学习获得。   常见的超参数有模型(SVM,Softmax,Multi-layer Neural Network,…),迭代算法(Adam,SGD,…),学习率(learning rate)(不同的迭代算法还有各种不同的超参...
阅读(708) 评论(0)

详解数据挖掘与机器学习的区别与联系

0、为什么写这篇博文  最近有很多刚入门AI领域的小伙伴问我:数据挖掘与机器学习之间的区别于联系。为了不每次都给他们长篇大论的解释,故此在网上整理了一些资料,整理成此篇文章,下次谁问我直接就给他发个链接就好了。  本篇文章主要阐述我个人在数据挖掘、机器学习等方面的学习心得,并搜集了网上的一些权威解释,或许不太全面,但应该会对绝大多数入门者有一个直观地解释。  本文主要参照周志华老师的:机器学习与数据...
阅读(1869) 评论(4)
96条 共5页1 2 3 4 5 ... 下一页 尾页
    我的公众号

    关注微信公众号,专

    为机器学习入门者
    个人资料
    • 访问:146410次
    • 积分:3352
    • 等级:
    • 排名:第10749名
    • 原创:86篇
    • 转载:6篇
    • 译文:4篇
    • 评论:765条
    博客专栏
    最新评论