关闭
当前搜索:

[置顶] XGBoost 中特征重要性和特征选择原理解析与实战

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!...
阅读(540) 评论(0)

[置顶] 数据降维之PCA透彻讲解

数据降维之PCA透彻讲解标签(空格分隔): 机器学习数据降维之PCA透彻讲解 引言 PCA算法的数学基础 1 数据的向量表示及其基本运算 2 向量空间的基 3 基变换的矩阵表示 endpmatrix PCA算法的数学原理 1 方差 2 协方差 3 协方差矩阵 4 协方差矩阵对角化 PCA算法执行过程及其Java实现 1 PCA算法执行步骤 2 PCA算法的Java实现 PCA算法应用实例0. 引言...
阅读(232) 评论(0)

[置顶] 基于XGBoost的特征选择原理与实战

周末填坑……...
阅读(1449) 评论(0)

[置顶] 基于物品的协同过滤算法

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!...
阅读(151) 评论(0)

[置顶] 基于用户的协同过滤算法详解

未完待续…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!...
阅读(159) 评论(0)

[置顶] 推荐算法综述

我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求,推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。...
阅读(320) 评论(0)

[置顶] 基于内容的推荐算法

Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (CB) 基本也会是其中的一部分。CB应该算是最早被使用的推荐方法吧,它根据用户过去喜欢的产品(本文统称为 item),为用户推荐...
阅读(3338) 评论(0)

[置顶] XGBoost参数调优完全指南

1. 简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现,参数的调整十分必要。在解决实际问题的时候,有些问题是很难回答的——你...
阅读(376) 评论(0)

[置顶] 数据挖掘中的数据清洗方法大全

在数据挖掘领域,经常会遇到的情况是挖掘出来的特征数据存在各种异常情况,如 数据缺失 、数据值异常 等。对于这些情况,如果不加以处理,那么会直接影响到最终挖掘模型建立后的使用效果,甚至是使得最终的模型失效,任务失败。所以对于数据挖掘工程师来说,掌握必要的数据清洗方法是很有必要的!      接下来本文就依次讲解如何处理 数据值缺失 和 数据值异常 两种情况的处理。1. 缺失值的处理  如下...
阅读(551) 评论(1)

[置顶] 从损失函数的角度详解常见机器学习算法

1. 机器学习中常见的损失函数  一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来评价模型的预测值 Y^=f(X)\hat Y=f(X) 与真实值Y的不一致程度,它是一个非负实值函数。通常使用 L(...
阅读(1331) 评论(0)

[置顶] Scikit-Learn实战之——交叉验证

本文将从以下几个方面进行介绍: 简单地讲训练集/测试集分割进行模型验证的缺点; K折交叉验证的做法和优点; 交叉验证如何用于选择调节参数、选择模型、选择特征; 对交叉验证进行升级。 1. 为什么要进行模型验证  众所周知,在机器学习与数据挖掘中进行模型验证的一个重要目的是要选出一个最合适的模型。对于有监督学习而言,我们希望模型对于未知数据具有很强的泛化能力,所以就需要模型验证这一过程来评估不同的模型...
阅读(644) 评论(0)

[置顶] 史上最详细的XGBoost实战

0. 环境介绍 Python 版 本: 3.6.2 操作系统  : Windows 集成开发环境: PyCharm 1. 安装Python环境 安装Python首先,我们需要安装Python环境。本人选择的是64位版本的Python 3.6.2。去Python官网https://www.python.org/选择相应的版本并下载。如下如所示: 接下来安装,并最终选择将Python加入环境变量中...
阅读(6451) 评论(11)

[置顶] 深入浅出——基于密度的聚类方法

本文原作者:微信公众号“燕哥带你学算法”团队的 祝烨 博士,目前在墨尔本从事博士后研究。“The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL“人类所有知识的基础就是观察和寻找相似与相异” —— 阿尔弗雷德·伯...
阅读(1994) 评论(0)

[置顶] SVM为什么走下“神坛”?

点题:学界发现真理,产业界利用趋势。“神人”就是既发现了真理又掌握了趋势(To find the truth of nature in academic, and to make business and profits by following the trend of technologies in industries.)。 1、历史的惊人巧合  曾几何时,SVM在神经网络研究和应用中几乎无...
阅读(3595) 评论(9)

[置顶] 深度学习入门

0、引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。 1、深度学习的提出  先从深度学习的提出开始说起,深度学习的概念是由Hinton在2006年提出,他当时首次提出了深度信念网络(DBN),相...
阅读(4290) 评论(0)

[置顶] AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场。百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智能人才。现在在北京,只要是机器学习算法岗位,少则月薪 20k,甚至100k 以上……  不错,新时代时代...
阅读(23909) 评论(106)

[置顶] 无监督聚类算法该如何评价

学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!       那么学术界到底有没有成熟公认的关于无监督聚类算法的评价指标呢?本文就是为了解决大家的这个疑惑而写的,并且事先明确的告诉大家,关于无监督聚类算法结果好坏的...
阅读(5811) 评论(20)

[置顶] Isolation Forest算法实现详解

本文算法完整实现源码已开源至本人的GitHub(如果对你有帮助,请给一个 star ),参看其中的 iforest 包下的 IForest 和 ITree 两个类: https://github.com/JeemyJohn/AnomalyDetection前言       本文介绍的 Isolation Forest 算法原理请参看我的博客:Isolation Forest异常检测算法原理详解,本文...
阅读(3768) 评论(12)

[置顶] Isolation Forest算法原理详解

本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://github.com/JeemyJohn/AnomalyDetection。前言       随着机器学习...
阅读(6888) 评论(24)

[置顶] 机器学习中的数据不平衡解决方案大全

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。       数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。       本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集...
阅读(20450) 评论(38)

[置顶] TensorFlow官网访问不了

TensorFlow官网访问不了?看这篇文章就可以了……...
阅读(12861) 评论(12)

[置顶] IDEA、PyCharm激活服务器地址

在License server中输入:http://btsha.com:41017 对机器学习,人工智能感兴趣的小伙伴,请关注我的公众号:...
阅读(4288) 评论(4)

[置顶] 深度神经网络训练的必知技巧

本文主要介绍8种实现细节的技巧或tricks:数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。1. 数据增广在不改变图像类别的情况下,增加数据量,能提高模型的泛化能力。 图像识别领域数据增广的例子自然图像的数据增广方式包括很多,如常用的水平翻转(horizontally flipping),一定程度的位移或者裁剪和颜色...
阅读(8028) 评论(34)

[置顶] Scikit-learn实战之SVM回归分析、密度估计、异常点检测

1. SVM回归       SVM的支持向量的方法能够被扩展以解决回归问题。这种方法被称之为SVR(Support Vector Regression 支持向量回归)。该模型是由SVC(支持向量分类)演化而来,它依然依赖于训练数据的子集。因为构建Model的损失函数并不关心位于边缘上的训练点(样本)集。类似的,由支持向量回归(SVR)生成的模型仅仅依赖于训练数据的某个子集,因为构建模型的损失函数忽...
阅读(3677) 评论(4)

[置顶] Scikit-learn实战之SVM分类

Support vector machines (SVMs) 是一系列的有监督的学习方法,主要用于分类、回归和异常点检测。1. SVM的主要优点如下: 在高维空间有效; 当样本空间的维度比样本数高时任然有效; 使用训练样本的子集构建决策函数(这些样本点被称之为支持向量),因此它的内存效率很高; SVM是一个全能型的机器学习算法:可以指定不同的核函数的决策函数,提供了常见的核函数,但是也可以指定自定义...
阅读(4956) 评论(8)

Vim实战技巧锦集

1、VIM的概念和基础操作 vi 命令行下面的文本编辑工具,vim是vi的增强版本。命令vim可以启动vim编辑器。一般可以通过vim+目标文件路径的形式使用vim。如果目标文件存在,则vim打开该文件;若目标文件不存在,则新建该文件。 1.1 VI拥有三种模式:命令模式、插入模式和ex模式 1、任何模式都可以通过esc键回到命令模式; 2、在命令模式中按”i“键可以进入到插入模式...
阅读(48) 评论(0)

Spark资源调优

Spark作者:章华燕                编辑:龚    赛概述1        在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业...
阅读(129) 评论(0)

CNN模型之ShuffleNet

CNN作者:叶 虎                编辑:李文臣引言1        ShuffleNet是旷视科技最近提出的一种计算高效的CNN模型,其和MobileNet和SqueezeNet等一样主要是想应用在移动端。所以,ShuffleNet的设计目标也是如何利用有限的计算资源来达到最好的模型精度,这需要很好地在速度和精度之间做平衡。ShuffleNet的核心是采用了两种操作:pointwi...
阅读(509) 评论(0)

系列学习——推荐算法综述

作者:章华燕                编辑:祝鑫泉前言1随着移动互联网技术和社交网络的发展,每天都有大量包括博客,图片,视频,微博等等的信息发布到网上。我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求,推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。个性化推荐主要是根据用户的兴趣和和利时行为特点,向用户推荐所需的信息或商品,帮助用户在海量信息...
阅读(464) 评论(0)

浅析深度学习在实体识别和关系抽取中的应用

实体识别作者:蒙    康                编辑:黄俊嘉命名实体识别1命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图。命名实体识别是NLP领域中的一些复杂任务的基础问题,诸如自动问答,关系抽取,信息检索等 ,其效果直接影响后续处理的效果,因此是NLP研究的一个基础问题。NER一直是NLP领域...
阅读(448) 评论(0)

一步步教你理解LSTM

作者:王千发编辑:田 旭什么是LSTM1LSTM全名是Long Short-Term Memory,长短时记忆网络,可以用来处理时序数据,在自然语言处理和语音识别等领域应用广泛。和原始的循环神经网络RNN相比,LSTM解决了RNN的梯度消失问题,可以处理长序列数据,成为当前最流行的RNN变体。LSTM应用举例2假设我们的模型的输入是依次输入一句话的每个单词,我们需要对单词做分类,比如有两句话:(1...
阅读(342) 评论(0)

Spark问题集锦

使用外部链接对象(如Jedis客户端)在Streaming RDD中发送数据时,一定要使用单例。否则会出现各种Bug。 在IDEA中使用maven混合Scala和Java打Jar包时,Java的类要写在Java目录里。如果将Java类定义在scala目录下,会出现 NoClassDefFoundError 异常。 持续更新中…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!...
阅读(138) 评论(0)

机器学习实战---线性回归提高篇之乐高玩具套件二手价预测

作者:崔家华     编辑:王抒伟PS(欢迎访问作者个人网站:www.cuijiahua.com)线性回归零前言:本篇文章讲解线性回归的缩减方法,岭回归以及逐步线性回归,同时熟悉sklearn的岭回归使用方法,对乐高玩具套件的二手价格做出预测。一岭回归:如果数据的特征比样本点还多应该怎么办?很显然,此时我们不能再使用上文的方法进行计算了,因为矩阵X不是满秩矩阵,非满秩矩阵在求逆时会出现问题。为了解...
阅读(175) 评论(0)

Spark 常见问题解决方案

Spark 常见问题收集,并给出相应的解决方案。分享给大家,希望大家不要走弯路……...
阅读(1120) 评论(0)

Spark资源调优

0. 概述  在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总...
阅读(1012) 评论(0)

Spark Streaming之妙用foreachRDD和foreachPartition

0. 前言  DStream中的foreachRDD是一个非常强大函数,它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的对象(例如根据TCP协议连接到远程的服务器,我们连接外部数据库需要自己的句柄)和发送数据到远程的系统。为此,开...
阅读(971) 评论(0)

Object Detection系列(三) Fast R-CNN

作者:张   旭编辑:黄俊嘉该内容是目标检测系列的第三篇,系列前部分内容如下,点击可查看:Object Detection系列(一) R-CNN Object Detection系列(二) SPP-Net Fast R-CNN简介在之前的两个文章中,我们分别介绍了R-CNN与SPP-Net,于是在2015年RBG(Ross B. Girshick)等结合了SPP-Net的共享卷积计算思想,对R-C...
阅读(204) 评论(0)

Git命令之分支操作

1. 查看全部分支$ git branch -a * master remotes/origin/HEAD -> origin/master remotes/origin/master remotes/origin/jeemy2. 查看本地分支$ git branch * master3. 切换分支 切换到 jeemy 分支 $ git checkout -b jeemy ori...
阅读(127) 评论(0)

Vim命令总结

不断地总结工作中非常实用的vim命令……...
阅读(172) 评论(0)

你必须要知道CNN模型:ResNet

作者:叶 虎编辑:张   欢PART01 ResNet简介引言深度残差网络(Deep residual network, ResNet)的提出是CNN图像史上的一件里程碑事件,让我们先看一下ResNet在ILSVRC和COCO 2015上的战绩:图1 ResNet在ILSVRC和COCO 2015上的战绩ResNet取得了5项第一,并又一次刷新了CNN模型在ImageNet上的历史:图2 Imag...
阅读(949) 评论(0)

GAN系列学习(2)——前生今世

作者:刘威威编辑:李文臣       本文是GAN系列学习--前世今生第二篇,在第一篇中主要介绍了GAN的原理部分,在此篇文章中,主要总结了常用的GAN包括DCGAN,WGAN,WGAN-GP,LSGAN-BEGAN的详细原理介绍以及他们对GAN的主要改进,并推荐了一些Github代码复现链接。       本文旨在对GAN的变种做一些梳理工作,详细请看下文。31.DCGAN【Paper】 :...
阅读(278) 评论(0)

从损失函数的角度详解常见机器学习算法(1)

作者:章华燕编辑:赵一帆1、机器学习中常见的损失函数一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来评价模型的预测值 Y_hat=f(X) 与真实值Y的不一致程度,它是一个非负实值函数。通常使用...
阅读(196) 评论(0)
132条 共7页1 2 3 4 5 ... 下一页 尾页
    机器学习公众号

    关注微信公众号,专

    为机器学习入门者
    个人资料
    • 访问:228184次
    • 积分:4737
    • 等级:
    • 排名:第7252名
    • 原创:115篇
    • 转载:14篇
    • 译文:3篇
    • 评论:787条
    博客专栏
    最新评论