[置顶] 从损失函数的角度详解常见机器学习算法

先记下,后续有时间再补上...
阅读(20) 评论(0)

Scikit-Learn实战之——交叉验证

本文将从以下几个方面进行介绍: 简单地讲训练集/测试集分割进行模型验证的缺点; K折交叉验证的做法和优点; 交叉验证如何用于选择调节参数、选择模型、选择特征; 对交叉验证进行升级。 1. 为什么要进行模型验证  众所周知,在机器学习与数据挖掘中进行模型验证的一个重要目的是要选出一个最合适的模型。对于有监督学习而言,我们希望模型对于未知数据具有很强的泛化能力,所以就需要模型验证这一过程来评估不同的模型...
阅读(244) 评论(1)

[置顶] Python机器学习实战之手撕XGBoost

0. 环境介绍 Python 版 本: 3.6.2 操作系统  : Windows 集成开发环境: PyCharm 1. 安装Python环境 安装Python首先,我们需要安装Python环境。本人选择的是64位版本的Python 3.6.2。去Python官网https://www.python.org/选择相应的版本并下载。如下如所示: 接下来安装,并最终选择将Python加入环境变量中...
阅读(2517) 评论(4)

[置顶] 机器学习面试题

目前我整理了一些机器学习面试题,欢迎大家留言给出正确答案!1、LR为什么用sigmoid函数。这个函数有什么优点和缺点?为什么不用其他函数?2、决策树如何防止过拟合3、KKT条件用哪些,完整描述4、L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节.5、Python如何定义一个私有变量6、说一下进程和线程7、K-means聚类个数选择,做什么样的试验来确定K8、有哪些线程安全的函数9、数据库...
阅读(231) 评论(0)

[置顶] 深入浅出——基于密度的聚类方法

本文原作者:微信公众号“燕哥带你学算法”团队的 祝烨 博士,目前在墨尔本从事博士后研究。“The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL“人类所有知识的基础就是观察和寻找相似与相异” —— 阿尔弗雷德·伯...
阅读(1284) 评论(0)

燕哥CSDN免费视频课程

前言  对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,作为一名对机器学习心有向往的程序员,我们该以什么样的姿势开始呢?  CSDN知名博主们开设了系列免费直播课程:《AI时代,我该如何学习机器学习?》,他们将在此课程中为你逐一解答。直播时间  9月7号和9月12号晚20:00,共2场!课程大纲 第一节人工智能时代为什么选Python 机器学习核心库介绍(p...
阅读(1139) 评论(0)

[置顶] SVM为什么走下“神坛”?

点题:学界发现真理,产业界利用趋势。“神人”就是既发现了真理又掌握了趋势(To find the truth of nature in academic, and to make business and profits by following the trend of technologies in industries.)。 1、历史的惊人巧合  曾几何时,SVM在神经网络研究和应用中几乎无...
阅读(3004) 评论(9)

数据挖掘中的利器--XGBoost理论篇

XGBoost是各种数据挖掘或机器学习算法类比赛中每个团队都会使用且精度相对最好的算法之一(Deep Learning算法除外)。也就是说,对于刚转向机器学习领域的同胞们,在掌握数据挖掘的基本常识概念之后,要想在比赛中有所收获,掌握XGBoost算法也是当务之急。1、XGBoost算法优点  XGBoost 是 Extreme Gradient Boosting的简称。它是Gradient Boo...
阅读(1874) 评论(3)

[置顶] 深度学习入门

0、引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。 1、深度学习的提出  先从深度学习的提出开始说起,深度学习的概念是由Hinton在2006年提出,他当时首次提出了深度信念网络(DBN),相...
阅读(3780) 评论(0)

朴素贝叶斯算法详解

1. 引言     朴素贝叶斯算法(Naive Bayes)是机器学习中常见的基本算法之一,主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入 xx 利用贝叶斯定理求出后验概率最大的输出 yy 。      基于以上的解释,我们知道:1. 该算法的理论核心是贝叶斯定理;...
阅读(677) 评论(0)

机器学习该如何入门

引言  可能你对这个名字叫“机器学习”的家伙不是特别的了解,但是相信用过iPhone的同学都知道iPhone的语音助手Siri,它能帮你打电话,查看天气等等;相信大家尤其是美女童鞋都用过美颜相机,它能自动化的给我们拍出更漂亮的照片;逛京东淘宝的时候,细心的童鞋应该也会发现它们会有一个栏目“猜你喜欢”;最近异军突起的新闻客户端软件今日头条,它们就是会根据分析你的日常喜好给每个人推荐不同的新闻……没错,...
阅读(5512) 评论(31)

超参数的选择与交叉验证

1. 超参数有哪些  与超参数对应的是参数。参数是可以在模型中通过BP(反向传播)进行更新学习的参数,例如各种权值矩阵,偏移量等等。超参数是需要进行程序员自己选择的参数,无法学习获得。   常见的超参数有模型(SVM,Softmax,Multi-layer Neural Network,…),迭代算法(Adam,SGD,…),学习率(learning rate)(不同的迭代算法还有各种不同的超参...
阅读(695) 评论(0)

详解数据挖掘与机器学习的区别与联系

0、为什么写这篇博文  最近有很多刚入门AI领域的小伙伴问我:数据挖掘与机器学习之间的区别于联系。为了不每次都给他们长篇大论的解释,故此在网上整理了一些资料,整理成此篇文章,下次谁问我直接就给他发个链接就好了。  本篇文章主要阐述我个人在数据挖掘、机器学习等方面的学习心得,并搜集了网上的一些权威解释,或许不太全面,但应该会对绝大多数入门者有一个直观地解释。  本文主要参照周志华老师的:机器学习与数据...
阅读(1852) 评论(4)

[置顶] AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场。百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智能人才。现在在北京,只要是机器学习算法岗位,少则月薪 20k,甚至100k 以上……  不错,新时代时代...
阅读(21567) 评论(103)

[置顶] 无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!       那么学术界到底有没有成熟公认的关于无监督聚类算法的评价指标呢?本文就是为了解决大家的这个疑惑而写的,并且事先明确的告诉大家,关于无监督聚类算法结果好坏的...
阅读(4271) 评论(20)

[置顶] Isolation Forest算法实现详解

本文算法完整实现源码已开源至本人的GitHub(如果对你有帮助,请给一个 star ),参看其中的 iforest 包下的 IForest 和 ITree 两个类: https://github.com/JeemyJohn/AnomalyDetection前言       本文介绍的 Isolation Forest 算法原理请参看我的博客:Isolation Forest异常检测算法原理详解,本文...
阅读(2647) 评论(12)

[置顶] Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://github.com/JeemyJohn/AnomalyDetection。前言       随着机器学习...
阅读(4064) 评论(24)

[置顶] 机器学习中的数据不平衡解决方案大全

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。       数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。       本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集...
阅读(18714) 评论(38)

BP神经网络的原理及推导

首先什么是人工神经网络?简单来说就是将单个感知器作为一个神经网络节点,然后用此类节点组成一个层次网络结构,我们称此网络即为人工神经网络(本人自己的理解)。当网络的层次大于等于3层(输入层+隐藏层(大于等于1)+输出层)时,我们称之为多层人工神经网络。1、神经单元的选择       那么我们应该使用什么样的感知器来作为神经网络节点呢?在上一篇文章我们介绍过感知器算法,但是直接使用的话会存在以下问题:感...
阅读(972) 评论(8)

机器学习中Bagging和Boosting的区别

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。       首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1. Bagging (bootstrap aggregating)Bagging即套袋法,其算法过程如下: 从原...
阅读(1372) 评论(15)
37条 共2页1 2 下一页 尾页
    我的公众号

    关注微信公众号,专

    为机器学习入门者
    个人资料
    • 访问:145015次
    • 积分:3307
    • 等级:
    • 排名:第10702名
    • 原创:83篇
    • 转载:6篇
    • 译文:4篇
    • 评论:761条
    博客专栏
    最新评论