[置顶] 数据挖掘中的利器--XGBoost理论篇

XGBoost是各种数据挖掘或机器学习算法类比赛中每个团队都会使用且精度相对最好的算法之一(Deep Learning算法除外)。也就是说,对于刚转向机器学习领域的同胞们,在掌握数据挖掘的基本常识概念之后,要想在比赛中有所收获,掌握XGBoost算法也是当务之急。1、XGBoost算法优点  XGBoost 是 Extreme Gradient Boosting的简称。它是Gradient Boo...
阅读(975) 评论(0)

[置顶] 深度学习入门

0、引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。 1、深度学习的提出  先从深度学习的提出开始说起,深度学习的概念是由Hinton在2006年提出,他当时首次提出了深度信念网络(DBN),相...
阅读(2848) 评论(0)

[置顶] 朴素贝叶斯算法详解

1. 引言     朴素贝叶斯算法(Naive Bayes)是机器学习中常见的基本算法之一,主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入 xx 利用贝叶斯定理求出后验概率最大的输出 yy 。      基于以上的解释,我们知道:1. 该算法的理论核心是贝叶斯定理;...
阅读(247) 评论(0)

[置顶] AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场。百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智能人才。现在在北京,只要是机器学习算法岗位,少则月薪 20k,甚至100k 以上……  不错,新时代时代...
阅读(19242) 评论(97)

[置顶] 无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!       那么学术界到底有没有成熟公认的关于无监督聚类算法的评价指标呢?本文就是为了解决大家的这个疑惑而写的,并且事先明确的告诉大家,关于无监督聚类算法结果好坏的...
阅读(3407) 评论(19)

[置顶] Isolation Forest算法实现详解

本文算法完整实现源码已开源至本人的GitHub(如果对你有帮助,请给一个 star ),参看其中的 iforest 包下的 IForest 和 ITree 两个类: https://github.com/JeemyJohn/AnomalyDetection前言       本文介绍的 Isolation Forest 算法原理请参看我的博客:Isolation Forest异常检测算法原理详解,本文...
阅读(1933) 评论(12)

[置顶] Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://github.com/JeemyJohn/AnomalyDetection。前言       随着机器学习...
阅读(3008) 评论(24)

[置顶] 机器学习中的数据不平衡解决方案大全

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。       数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。       本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集...
阅读(17684) 评论(37)

[置顶] TensorFlow官网访问不了

相信很多搞深度学习的小伙伴最近都为访问不了 TensorFlow官网 而苦恼吧!虽然网上也给出了一些方法,但是却缺少一个很重要的步骤。接下来,我就给大家讲解一个完整的过程,大牛绕过。1、更改Hosts      在Windows的host文件(位置在C:\Windows\System32\drivers\etc\hosts)末尾添加如下内容:#TensorFlow start 64.233.188...
阅读(2395) 评论(3)

[置顶] 深度神经网络训练的必知技巧

本文主要介绍8种实现细节的技巧或tricks:数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。1. 数据增广       在不改变图像类别的情况下,增加数据量,能提高模型的泛化能力。      自然图像的数据增广方式包括很多,如常用的水平翻转(horizontally flipping),一定程度的位移或者裁剪和颜色抖动...
阅读(5777) 评论(34)

[置顶] Scikit-learn实战之SVM回归分析、密度估计、异常点检测

1. SVM回归       SVM的支持向量的方法能够被扩展以解决回归问题。这种方法被称之为SVR(Support Vector Regression 支持向量回归)。该模型是由SVC(支持向量分类)演化而来,它依然依赖于训练数据的子集。因为构建Model的损失函数并不关心位于边缘上的训练点(样本)集。类似的,由支持向量回归(SVR)生成的模型仅仅依赖于训练数据的某个子集,因为构建模型的损失函数忽...
阅读(2153) 评论(4)

[置顶] Scikit-learn实战之SVM分类

Support vector machines (SVMs) 是一系列的有监督的学习方法,主要用于分类、回归和异常点检测。1. SVM的主要优点如下: 在高维空间有效; 当样本空间的维度比样本数高时任然有效; 使用训练样本的子集构建决策函数(这些样本点被称之为支持向量),因此它的内存效率很高; SVM是一个全能型的机器学习算法:可以指定不同的核函数的决策函数,提供了常见的核函数,但是也可以指定自定义...
阅读(2144) 评论(8)

普里姆(Prim)算法

普里姆(Prim)算法,和克鲁斯卡尔算法一样,是用来求加权连通图的最小生成树的算法。1、基本思想  对于图G4而言,V是所有顶点的集合;现在,设置两个新的集合U和T,其中U用于存放G的最小生成树中的顶点,T存放G的最小生成树中的边。      从所有uЄU,vЄ(V-U) (V-U表示出去U的所有顶点)的边中选取权值最小的边(u, v),将顶点v加入集合U中,将边(u, v)加入集合T中,如...
阅读(94) 评论(0)

机器学习该如何入门

引言  可能你对这个名字叫“机器学习”的家伙不是特别的了解,但是相信用过iPhone的同学都知道iPhone的语音助手Siri,它能帮你打电话,查看天气等等;相信大家尤其是美女童鞋都用过美颜相机,它能自动化的给我们拍出更漂亮的照片;逛京东淘宝的时候,细心的童鞋应该也会发现它们会有一个栏目“猜你喜欢”;最近异军突起的新闻客户端软件今日头条,它们就是会根据分析你的日常喜好给每个人推荐不同的新闻……没错,...
阅读(4480) 评论(31)

Amazon面试题

亚马逊面试题:如下所示的Map中,0代表海水,1代表岛屿,其中每一个岛屿与其八领域的区间的小岛能相连组成岛屿群。写代码,统计Map中岛屿个数。/* Q1. Map [ 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0...
阅读(348) 评论(0)

超参数的选择与交叉验证

1. 超参数有哪些  与超参数对应的是参数。参数是可以在模型中通过BP(反向传播)进行更新学习的参数,例如各种权值矩阵,偏移量等等。超参数是需要进行程序员自己选择的参数,无法学习获得。   常见的超参数有模型(SVM,Softmax,Multi-layer Neural Network,…),迭代算法(Adam,SGD,…),学习率(learning rate)(不同的迭代算法还有各种不同的超参...
阅读(290) 评论(0)

详解数据挖掘与机器学习的区别与联系

0、为什么写这篇博文  最近有很多刚入门AI领域的小伙伴问我:数据挖掘与机器学习之间的区别于联系。为了不每次都给他们长篇大论的解释,故此在网上整理了一些资料,整理成此篇文章,下次谁问我直接就给他发个链接就好了。  本篇文章主要阐述我个人在数据挖掘、机器学习等方面的学习心得,并搜集了网上的一些权威解释,或许不太全面,但应该会对绝大多数入门者有一个直观地解释。  本文主要参照周志华老师的:机器学习与数据...
阅读(1397) 评论(1)

Java 7 新特性try-with-resources语句

1、什么是try-with-resources语句       try-with-resources 语句是一个声明一个或多个资源的 try 语句。一个资源作为一个对象,必须在程序结束之后随之关闭。 try-with-resources 语句确保在语句的最后每个资源都被关闭 。任何实现了 Java.lang.AutoCloseable 接口的对象,包括所有实现了 java.io.Closeable...
阅读(505) 评论(0)

CSDN博客积分规则

1、博客积分规则      博客积分是CSDN对用户努力的认可和奖励,也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下: 每发布一篇原创或者翻译文章:可获得10分; 每发布一篇转载文章:可获得2分; 博主的文章每被评论一次:可获得1分; 每发表一次评论:可获得1分(自己给自己评论、博主回复评论不获得积分); 博文阅读次数每超过100次:可获得1分,阅读加分最高加到100分...
阅读(500) 评论(8)

Win10 64bit下安装GPU版Tensorflow+Keras

Tensorflow和Keras都是支持Python接口的,所以本文中说的都是搭建一个Python的深度学习环境。        Keras是对Tensorflow或者Theano的再次封装,也就是以Tensorflow或Theano为后端,默认的后端是tensorflow,如果你想使用theano为后端,可以更改为theano。Keras为什么要对tensorflow和theano进行再次封装,当...
阅读(831) 评论(11)
84条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:105508次
    • 积分:2815
    • 等级:
    • 排名:第12817名
    • 原创:74篇
    • 转载:6篇
    • 译文:4篇
    • 评论:722条
    我的公众号

    博客专栏
    最新评论