机器学习
文章平均质量分 96
Terry_dong
我只是个搬运工
展开
-
K-means聚类与EM算法
一,本文关注以下内容: K-means的原理 初始类中心的选择和类别数K的确定 K-means和EM算法、高斯混合模型的关系 二:K-means的原理K-means(K均值聚类)是一种基于中心的聚类算法,通过迭代,将样本分到K个类中,使每个样本与其所属类中心的距离之和最小。1定义损失函数假设我们有一个数据集{x1, x2,..., xN},每个样本的特征维度是m维,我们的目标是将数据集划分为K个类别。假定K值已经给定,第k个类...原创 2020-08-02 16:51:29 · 6837 阅读 · 1 评论 -
分类器性能度量指标之ROC曲线、AUC值
目录概述混淆矩阵(Confusion matrix)ROC曲线AUC(Area under the ROC curve)AUC能拿来干什么总结参考资料:概述二分类问题在机器学习中是一个很常见的问题,经常会用到。ROC(Receiver Operating Characteristic) 曲线和AUC(Area Under the Curve)(Area Under theCurve) 值常被用来评价一个二值分类器 (binary classifier) 的优劣...原创 2020-06-28 11:51:11 · 1363 阅读 · 0 评论 -
LSH(Locality Sensitive Hashing)基本思想
Locality Sensitive Hashing,LSH原理和实现1. 基本思想局部敏感(Locality Senstitive):即空间中距离较近的点映射后发生冲突的概率高,空间中距离较远的点映射后发生冲突的概率低。局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度...原创 2020-02-22 02:01:15 · 1592 阅读 · 0 评论 -
kd树总结
Kd-Tree,即K-dimensional tree,是一种高维索引树形数据结构,常用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Nearest Neighbor),例如图像检索和识别中的高维图像特征向量的K近邻查找与匹配。本文首先介绍Kd-Tree的基本原理,然后对基于BBF的近似查找方法进行介绍,最后给出一些参考文献和开...原创 2020-02-22 01:54:09 · 977 阅读 · 0 评论 -
高维数据的快速最近邻算法FLANN
高维数据的可伸缩最近邻算法FLANN1.简介在计算机视觉和机器学习中,对于一个高维特征,找到训练数据中的最近邻计算代价是昂贵的。对于高维特征,目前来说最有效高维数据的快速最近邻算法FLANN1.简介 在计算机视觉和机器学习中,对于一个高维特征,找到训练数据中的最近邻计算代价是昂贵的。对于高维特征,目前来说最有效的方法是 the randomized k-...原创 2020-02-22 01:50:26 · 1286 阅读 · 0 评论 -
KNN算法及KNN的优化算法-加权KNN
KNN及加权KNN优化算法深度学习的常规套路:1.收集数据并给定标签2.训练一个分类器3.测试,评估K-近邻(KNN)算法:对于未知类别属性数据集中的点:1.计算已知类别数据集中的点与当前点的距离2.按照距离依次排序3.选取与当前点距离最小的K个点4.确定前K个点所在类别的出现概率5.返回前K个点出现频率最高的类别作为当前点预测分类。KNN算法:不需要使用训...原创 2020-02-22 01:19:03 · 13180 阅读 · 1 评论 -
LR和SVM的联系与区别
21.LR和SVM的联系与区别?联系:1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)2、两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。区别:1、LR是参数模型,SVM是非参数模型。2、从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge ...原创 2019-12-24 16:17:47 · 793 阅读 · 0 评论 -
机器学习如何选择回归损失函数的?
无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点。损失函数(Loss Function)是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度。我们的目标就是最小化损失函数,让 f(x) 与 y 尽量接近。通常可以使用梯度下降算法寻找函数最小值。关于梯度下降最直白的解释可以看我的这篇文章:简单的梯度下降算法,你真的懂了吗?损失函数有许多不同的类型,...原创 2019-12-19 14:52:59 · 364 阅读 · 0 评论 -
机器学习期望最大算法:实例解析
交流思想,注重分析,更注重通过实例让您通俗易懂。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!01—回顾已经分析了朴素贝叶斯分类,拉普拉斯修正,半朴素贝叶斯分类器,在这些理论阐述中,都带有详细的例子解释,通过例子理解相关的理论是一种快速消化公式和理论比较不错的方法。接下来,介绍一种非常经典的求解隐变量的算法,这也是一...翻译 2019-01-07 00:04:02 · 301 阅读 · 0 评论 -
梯度下降优化算法概述
最近学习cs231n的课程,其中到梯度下降这一块时发现好几种方法,都不太懂。故学习下这篇博文。同时,翻译出来,供大家学习参考。 Feel free to contact me or leave a comment. 错误与不足之处,望各位读者指正。梯度下降优化算法概述 梯度下降是优化过程中最流行的方法之一并且并广泛运用在优化神经网络的过程中,同时,每一个state ...转载 2019-01-13 01:02:26 · 815 阅读 · 0 评论 -
BERT大火却不懂Transformer?读这一篇就够了
编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的...转载 2019-01-14 23:55:17 · 562 阅读 · 0 评论 -
机器学习大牛最常用的5个回归损失函数,你知道几个?
转载:https://www.jiqizhixin.com/articles/2018-06-21-3“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!机器学习中所有的算法都需要最大化或最小化一个函数,这个函数被称为...转载 2019-01-21 00:12:13 · 373 阅读 · 0 评论 -
单、强壮的情感、主题分类工具——NB-SVM
这篇笔记要记录的算法是 NB-SVM ,NB 是 Naive Bayes ,即把 NB 和 SVM 结合为一个算法来使用。 Kaggle 前面结束了一场 Toxic Comments Tagging(https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge),因为我啥都不会嘛,所以只能等比赛结束跟着 Kernal...转载 2019-01-21 20:53:11 · 442 阅读 · 0 评论 -
最大熵模型中的对数似然函数的解释
最大熵模型中的对数似然函数的解释最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的一般形式: 其实并没有解决问题。为了方便以后其他...原创 2019-07-07 18:20:05 · 1555 阅读 · 0 评论 -
条件随机场 (conditional random fields )模型
条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。条件随机场模型(conditional random field...原创 2019-06-28 17:24:14 · 763 阅读 · 0 评论 -
EM算法原理详解
1.引言以前我们讨论的概率模型都是只含观测变量(observable variable), 即这些变量都是可以观测出来的,那么给定数据,可以直接使用极大似然估计的方法或者贝叶斯估计的方法;但是当模型含有隐变量(latent variable)的时候, 就不能简单地使用这些估计方法。如在高斯混合和EM算法中讨论的高斯混合就是典型的含有隐变量的例子,已经给出EM算法在高斯混合模型中的运用,下面...原创 2019-07-14 00:32:33 · 360 阅读 · 0 评论 -
简易解说拉格朗日对偶(Lagrange duality)
引言:尝试用最简单易懂的描述解释清楚机器学习中会用到的拉格朗日对偶性知识,非科班出身,如有数学专业博友,望多提意见!这里也是引用别人的博客1.原始问题假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不用多想),考虑约束最优化问题:称为约束最优化问题的原始问题。现在如果不考虑约束条件,原始问题就是:因为假设其连续可微,利用高中的知识,对求导...原创 2019-07-14 00:42:01 · 254 阅读 · 0 评论 -
机器学习中有关概率论知识的小结
一、引言最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学习的相关文献时能够更加得心应手!这里只对本人觉得经常用到的概率论知识点做一次小结,主要是基本概念,因为机器学习中涉及概率论的地方,往往知道基本概念就不难理解,后面会不定期更新,希望博友们多留言补充。...原创 2019-07-14 00:44:22 · 1836 阅读 · 5 评论 -
如何让奇异值分解(SVD)变得不“奇异”?
在之前的一篇文章:通俗解释协方差与相关系数,红色石头为大家通俗化地讲解了协方差是如何定义的,以及如何直观理解协方差,并且比较了协方差与相关系数的关系。本文红色石头将继续使用白话语言,介绍机器学习中应用十分广泛的矩阵分解方法:奇异值分解(SVD)。本文不注重详细的数学推导,只注重感性的理解以及如何在实际应用中使用它们。1. 普通方阵的矩阵分解(EVD)我们知道如果一个矩阵 A 是方阵,即...原创 2019-07-27 22:15:00 · 675 阅读 · 0 评论 -
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
前言一个人坚持自己的兴趣是比较难的,因为太多的人太容易为外界所动了,而尤其当你无法从中得到多少实际性的回报时,所幸,我能一直坚持下来。毕达哥拉斯学派有句名言:“万物皆数”,最近读完「微积分概念发展史」后也感受到了这一点。同时,从算法到数据挖掘、机器学习,再到数学,其中每一个领域任何一个细节都值得探索终生,或许,这就是“终生为学”的意思。本文各部分内容分布如下原创 2016-07-31 19:52:39 · 1643 阅读 · 0 评论 -
一些重要的算法------启发式搜索,束搜索(beam search),二分查找算法 and so on............
一些重要的算法------启发式搜索,束搜索(beam search),二分查找算法 and so on............下面是一些比较重要的算法,原文罗列了32个,但我觉得有很多是数论里的,和计算机的不相干,所以没有选取。下面的这些,有的我们经常在用,有的基本不用。有的很常见,有的很偏。不过了解一下也是好事。也欢迎你留下你觉得有意义的算法。(注:本篇文章并非翻译,其中的算法描述大部份摘...原创 2019-01-06 22:58:53 · 941 阅读 · 0 评论 -
束搜索算法(Andrew Jungwirth 初稿)BEAM Search
最近搜了几篇BEAM SEARCH 束搜索的文章,这篇最直白易懂,并有示例的详细步骤图解,比维基百科的更为合适,因此拿在这里,供参考。原文链接:Beam Search Algorithm (Draft by Andrew Jungwirth)束搜索算法本文目标:1.演示了如何在存储有限的情况下进行类似的宽度优先的图搜索算法,即束搜索,使用启发式函数和限定的束宽度beam widt...原创 2019-01-06 22:55:43 · 967 阅读 · 1 评论 -
向量范数与矩阵范数
1.范数(norm)的意义要更好的理解范数,就要从函数、几何与矩阵的角度去理解。 我们都知道,函数与几何图形往往是有对应的关系,这个很好想象,特别是在三维以下的空间内,函数是几何图像的数学概括,而几何图像是函数的高度形象化,比如一个函数对应几何空间上若干点组成的图形。 但当函数与几何超出三维空间时,就难以获得较好的想象,于是就有了映射的概念,映射表达的就是一个集合通过某种关系转为另外一个集合。通常...原创 2018-04-15 15:52:46 · 409 阅读 · 0 评论 -
入门| 神经网络训练中,Epoch、Batch Size和迭代傻傻分不清?
你肯定经历过这样的时刻,看着电脑屏幕抓着头,困惑着:「为什么我会在代码中使用这三个术语,它们有什么区别吗?」因为它们看起来实在太相似了。为了理解这些术语有什么不同,你需要了解一些关于机器学习的术语,比如梯度下降,以帮助你理解。这里简单总结梯度下降的含义...梯度下降这是一个在机器学习中用于寻找最佳结果(曲线的最小值)的迭代优化算法。梯度的含义是斜率或者斜坡的翻译 2017-09-25 20:23:52 · 20009 阅读 · 2 评论 -
windows系统用anaconda配置安装TensorFlow (2017.4.13)tensorflow支持python3.5版本 1.打开anaconda依次输入: 1 conda con
windows系统用anaconda配置安装TensorFlow累死哥了,终于搞定了。天啦。(2017.6.09)tensorflow支持python3.5版本 1.打开anaconda依次输入:1conda config --add channels https://mirrors.tuna.tsinghua.e原创 2017-06-09 16:24:59 · 2119 阅读 · 1 评论 -
手写神经网络代码
最近准备入手神经网络了,所以手写了一份神经网络的代码,供大家学习。神经网络的原理,我就不说了,大家百度就可以了。下面的说明也应该很清楚了。有问题就提问吧 # -*-coding:utf-8 -*- '''Created on 2017年5月28日 手写神经网络@author: xiaodong '''import numpy as npdef sigmoid(x, de原创 2017-05-30 20:59:12 · 724 阅读 · 0 评论 -
强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,原创 2016-06-21 17:31:17 · 2864 阅读 · 0 评论 -
从最大似然到EM算法浅解
从最大似然到EM算法浅解 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自己能通俗原创 2016-07-25 21:56:21 · 725 阅读 · 0 评论 -
机器学习
学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习:在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,原创 2016-07-01 11:02:38 · 3675 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法By 刘未鹏(pongba)C++的罗浮宫(http://blog.csdn.net/pongba)TopLanguage(http://groups.google.com/group/pongba)概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,翻译 2016-07-12 12:14:28 · 4076 阅读 · 0 评论 -
PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下:转载于:点击打开链接1.算法来源2.算法原理3.算法证明4.PR值计算方法4.1 幂迭代法4.2 特征值法4.3 代数法5.算法实现5.1 基于迭代法的简单实现5.2 MapReduce实现6.PageRank算法的缺点7.写在最后参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录[^ref_1] 的方法,即通过人...转载 2018-05-17 10:47:57 · 714 阅读 · 0 评论 -
一文搞懂HMM(隐马尔可夫模型)
什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的...转载 2018-05-17 10:58:30 · 246 阅读 · 0 评论 -
一文读懂BP神经网络
转自一位懂生活的女神的博客园的文章。http://www.cnblogs.com/charlotte77/p/5629865.html 最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经...原创 2018-05-11 18:52:45 · 842 阅读 · 3 评论 -
10道深度学习面试题,小伙伴检测一下自己吧!
深度学习1. 视觉计算任务有哪些,你怎么分类 ?我把任务分为像素级别、目标级别、理解级别。像素级别的任务一般是传统的图像处理任务,他们不需要用到图像的语义信息,或者最多用到底层特征(比如图像的边缘、纹理),这些任务有图像增强、传统的图像复原(如去噪、去模糊)、传统的图像分割(比如基于种子生长的方法)、图像加密等。目标级别的任务需要用到语义信息,所以提取的特征是高层特征,CNN作为...转载 2018-11-27 09:38:29 · 1727 阅读 · 0 评论 -
最新自然语言处理(NLP)四步流程:Embed->Encode->Attend->Predict
过去半年以来,自然语言处理领域进化出了一件神器。此神器乃是深度神经网络的一种新模式,该模式分为:embed、encode、attend、predict四部分。本文将对这四个部分娓娓道来,并且剖析它在两个实例中的用法。人们在谈论机器学习带来的提升时,往往只想到了机器在效率和准确率方面带给人们的提升,然而最重要的一点却是机器学习算法的通用性。如果你想写一段程序来识别社交媒体平台上的侮辱性帖子,就把...转载 2018-11-14 17:03:34 · 215 阅读 · 0 评论 -
难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)
翻译:https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21 【导语】机器学习工程师 Michael Nguyen 在其博文中发布了关于 LSTM 和 GRU 的详细图解指南。博文中,他先介绍了 LSTM 和 GRU 的本质, ...转载 2018-11-11 18:23:24 · 2381 阅读 · 0 评论 -
[Machine Learning & Algorithm] 随机森林(Random Forest)
阅读目录1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销...转载 2018-10-15 12:18:59 · 309 阅读 · 0 评论 -
数据挖掘中所需的概率论与数理统计知识
数据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,...原创 2018-09-04 21:03:34 · 736 阅读 · 0 评论 -
最大熵模型中的数学推导
最大熵模型中的数学推导 0 引言 写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班。 10月26日机器学习班第6次课,邹讲最大熵模型,从熵的概念,讲到为何要最大熵、...原创 2018-09-04 21:01:47 · 385 阅读 · 0 评论 -
混淆矩阵(Confusion Matrix)
混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。以下有几个概念需要先说明:TP(True Positive): 真实为0,预测也为0FN(False Negative): 真实为0,预测为1FP(False Positive): 真实为1,预测为0TN(True Negative): 真实为1,预测也为1:分类模型总体判断的准确率(包括了所有class的总体准确率): 预测为0...转载 2018-05-31 21:30:16 · 20707 阅读 · 2 评论