machine learning
Losteng
这个作者很懒,什么都没留下…
展开
-
数学中的常见的距离公式
最近看到文章中对距离的衡量依据所针对的问题,针对所使用到的各种距离公式从网上搜罗如下1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:转载 2016-03-15 09:28:25 · 56589 阅读 · 2 评论 -
据挖掘中所需的概率论与数理统计知识
据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解转载 2016-04-10 17:58:37 · 3527 阅读 · 0 评论 -
随机采样方法整理与讲解(MCMC、Gibbs Sampling等)
本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包转载 2016-04-08 18:02:03 · 2481 阅读 · 0 评论 -
on-line gradient descent
看到一个名为在线梯度下降的方法,之前没有遇到过,今天再次看到就搜索一下在线梯度下降的方法是考虑到在线学习的优化在线学习:online learning强调的是学习是实时的,流式的,每次训练不用使用全部样本,而是以之前训练好的模型为基础,每来一个样本就更新一次模型,这种方法叫做OGD(online gradient descent)。这样做的目的是快速地进行模型的更新,提升模型时原创 2016-04-11 10:44:42 · 6524 阅读 · 0 评论 -
关于normalize ,白化的解释
在看机器学习的过程中往往会看到正则化,归一化,白化的名词,今天就概括介绍一下正则化正则化的目的:避免出现过拟合(over-fitting)经验风险最小化 + 正则化项 = 结构风险最小化经验风险最小化(ERM),是为了让拟合的误差足够小,即:对训练数据的预测误差很小。转载 2016-03-01 11:51:05 · 4603 阅读 · 0 评论 -
弱监督学习
今天看到一个新名词弱监督学习,查了一下,原来是由来已久的知识,下面就科普一下吧弱监督学习文章给的定义是: 数据集的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。在实际应用中的学习问题往往以混合形式出现,如多标记多示例、半监督多标记、弱标记多标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习原创 2016-04-14 23:27:51 · 17454 阅读 · 0 评论 -
维数灾难
维度灾难是机器学习中的另一个重要问题,这个概念是贝尔曼(Bellman)在 1961 年首先提出的,它描述了以下事实:许多算法在低维空间表现很好,但输入为高维时,算法往往失效。在机器学习领域,这有更多的意义,随着样本维度的增加,正确泛化的难度会以指数级增加,这是因为样本数量固定时,覆盖的输入空间比例指数级减少。比如对于 100 维的布尔空间(样本取值只有 0 和 1),即使包含 1 万亿(原创 2016-04-14 23:11:57 · 4914 阅读 · 0 评论 -
Python语言进行机器学习的开源项目
用Python语言进行机器学习的开源项目 图1:在GitHub上用Python语言机器学习的项目,图中颜色所对应的Bob, Iepy, Nilearn, 和NuPIC拥有最高的价值。1. Scikit-learnwww.github.com/scikit-learn/scikit-learnScikit-learn 是基于转载 2016-04-14 00:48:08 · 1379 阅读 · 0 评论 -
迁移学习( Transfer Learning )
最近在看深度学习的资料中常常提到一些特征提取的,关于TransferLearning的东西,就补一下这方面的知识。迁移学习(Transfer Learning) 在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型;然后利用这个学习到的模型来对测试文档进行分类与预测。然而,我们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题:原创 2016-06-14 15:37:07 · 8342 阅读 · 0 评论 -
交叉熵损失函数
最近看到CNNH(CNN Hashing),里面有提到交叉熵损失函数,找了一下,以备查忘转载 http://blog.csdn.net/u012162613/article/details/44239919本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.转载 2016-06-21 22:36:21 · 11398 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有preci转载 2017-02-24 10:14:26 · 2204 阅读 · 0 评论 -
机器学习中的训练集,验证集及测试集的关系
最近在看机器学习的东西发现验证集的(Validation set) 有时候被提起到,以时间没明白验证集的真正用途。首先,这三个名词在机器学习领域的文章中是很常见的,以下是这三个词的定义。 Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of原创 2016-02-29 16:12:44 · 42480 阅读 · 5 评论 -
bag of feature
最近在看关于聚类的特征时看到关于bag of feature ,从网上查找到关于bag of feature的介绍1.首先,我们用surf算法生成图像库中每幅图的特征点及描述符。2.再用k-means算法对图像库中的特征点进行训练,生成类心。3.生成每幅图像的BOF,具体方法为:判断图像的每个特征点与哪个类心最近,最近则放入该类心,最后将生成一列频数表,即初步的无权BOF。转载 2016-03-01 14:54:16 · 1238 阅读 · 1 评论 -
分类、标注与回归
1.分类问题分类问题是监督学习的一个核心问题。在监督学习中,当输出变量YY取有限个离散值时,预测问题便成为分类问题。监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称为分类。分类问题包括学习与分类两个过程。在学习的过程中,根据已知的训练样本数据集利用有效的学习方法学习一个分类器;在分类中,利用学习的转载 2016-03-31 15:47:08 · 3385 阅读 · 0 评论 -
增量学习
最近在看周老师的机器学习看到关于增量学习的概念,之前没有接触过就在网上查了查,现在总结一下增量学习(Incremental Learning)是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。增量学习非常类似于人类自身的学习模式。因为人在成长过程中,每天学习和接收新的事物,学习是逐步进行的,而且,对已经学习到的知识,人类一般是不会遗忘的。原创 2016-04-04 19:37:07 · 22192 阅读 · 4 评论 -
稀疏表示与压缩感知
最近在看机器学习时,看到一章关于稀疏学习的,之前有了解过稀疏表示与压缩感知,但是两者之间的差异并不是很清楚,今天就总结一下吧稀疏表示 稀疏域模型(Sparse-Land Model)即信号的稀疏表示,它意欲用尽可能少的非0系数表示信号的主要信息,从而简化信号处理问题的求解过程。稀疏域模型可如表达式(1)所示,其中y∈R^n为待处理信号,A∈R^(n×m)为基函数字典,x∈R^m为稀疏表示向原创 2016-04-07 15:21:54 · 15055 阅读 · 6 评论 -
HMM 与 CRF的区别
最近在看HMM 与CRF两者之间的区分,开始没有明白,搜集一些资料。HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种生成模型,定义了联 合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,生成模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因为我们需要将观察序列原创 2016-04-01 16:33:25 · 17536 阅读 · 0 评论 -
机器学习中常用的优化方法
1. 前言熟悉机器学习的童鞋都知道,优化方法是其中一个非常重要的话题,最常见的情形就是利用目标函数的导数通过多次迭代来求解无约束最优化问题。实现简单,coding 方便,是训练模型的必备利器之一。这篇博客主要总结一下使用导数的最优化方法的几个基本方法,梳理梳理相关的数学知识,本人也是一边写一边学,如有问题,欢迎指正,共同学习,一起进步。 2. 几个数学概念1) 梯度(一阶导数)转载 2016-03-27 21:16:11 · 1966 阅读 · 0 评论 -
如何解决机器学习中数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,转载 2016-03-21 15:44:12 · 12776 阅读 · 0 评论 -
对过拟合的处理:正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitt转载 2016-03-21 10:10:03 · 4324 阅读 · 0 评论 -
kd树的构建与搜索
二、构建完kd树之后,如今进行最近邻搜索呢?KD树的查找算法:在k-d树中进行数据的查找也是特征匹配的重要环节,其目的是检索在k-d树中与查询点距离最近的数据点。这里先以一个简单的实例来描述最邻近查找的基本思路。例一:查询的点(2.1,3.1)(较简单)。1、如图3所示,星号表示要查询的点(2.1,3.1)。通过二叉搜索,顺着搜索路径很快就能找到最邻近的近似点,也就原创 2016-03-15 09:13:10 · 10409 阅读 · 8 评论 -
机器学习模型的评价
机器学习是一门跨学科领域,涉及到统计学、计算机科学、最优化理论、信息理论、神经科学、理论物理以及其他领域。同时,机器学习也是一门非常年轻的学科。机器学习的大规模应用仅仅开始于过去二十年。当今,数据科学应用已成为一种职业。就像西部开发一样,拥有则无尽的机会,同时也有伴随着很多迷惑与问题。 本文将从以下部分对机器学习模型的评价进行介绍: * 介绍模型离线与在线评价体系与知识; * 介绍转载 2016-03-14 11:46:39 · 8755 阅读 · 0 评论 -
梯度下降,随机梯度下降,批量梯度下降,mini-batch 梯度下降
最近在看到一些神经网络优化的问题,再进行模型的训练的时候,总是希望得到一个能较好的反映实际的模型,在对模型训练的时候其实是在学习其中的参数,其中主要使用的损失函数来模拟我们的目标,只要使得损失函数可以达到最小或是比较小(可以满足对问题的求解)就行在对损失函数进行学习时,其实就是找出函数的全局最小解,在此由于问题的不同所产生的损失函数可以是不同的,常见无非就是凸函数和非凸函数原创 2016-03-10 17:16:29 · 100360 阅读 · 2 评论 -
学习GBDT+LR
最近看了facebook的Practical Lessons from Predicting Clicks on Ads at Facebook的这篇文章下面简单的介绍一下该算法:1.GBDT+LR 模型首先,该模型不算是新的模型了,在一些大公司的ctr的模型中已经使用了。如图就是该论文中提出的组合模型GBDT+LR,可以将GBDT看做是对特征一种组合编码的过程,最后的LR原创 2017-10-28 20:28:37 · 10592 阅读 · 0 评论