ML&CV
老司机的诗和远方
非1即0!
展开
-
结构风险和经验风险
经验风险:主要是计算目标函数存在的误差,最小经验风险是使得目标函数取得最小化的模型。结构风险:(既考虑经验风险还考虑置信范围)结构风险最小化(Structural Risk Minimization)是指把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小化。即SRM准则。所原创 2017-04-14 11:08:58 · 3320 阅读 · 0 评论 -
如何调试神经网络参数
转载:http://cvmart.net/community/article/detail/36神经网络的调试基本上难于绝大多数的程序,因为大部分的神经网络的错误不会以类型错误或运行时错误显现,他们只是使得网络难以收敛。如果你是一个新人,这可能会让你非常沮丧。一个有经验的网络训练者可以系统的克服这些困难,尽管存在着大量似是而非的错误信息,比如:你的网络训练的不太好。对转载 2017-08-12 17:11:38 · 5822 阅读 · 1 评论 -
Scikit-learn学习
numpy 库import numpy as np1、random用法:产生伪随机数 样例: np.random.seed(0) //产生以0为种子的伪随机数生成器 order_arr = np.random.permutation(100) //返回100个伪随机数,返回值是一个array2、mgrid用法:返回多维结构,常见的如2D图形,3D图形。对比np.me原创 2017-08-19 15:56:47 · 499 阅读 · 0 评论 -
scikit-learn介绍
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍1.1 估计器(Estimator)估计器转载 2017-08-19 16:49:45 · 703 阅读 · 0 评论 -
变分自编码器VAE(上)
转载:http://blog.csdn.net/hjimce/article/details/56678413转载 2017-08-19 20:58:12 · 473 阅读 · 0 评论 -
变分贝叶斯自编码器
http://blog.csdn.net/hjimce/article/details/57082788#comments转载 2017-08-19 21:33:47 · 756 阅读 · 0 评论 -
最大似然函数和最大后验概率区别
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来转载 2017-08-21 21:37:35 · 1967 阅读 · 0 评论 -
机器学习和计算机视觉库
C通用机器学习Recommender - 一个产品推荐的C语言库,利用了协同过滤.计算机视觉CCV - C-based/Cached/Core Computer Vision Library ,是一个现代化的计算机视觉库。VLFeat - VLFeat 是开源的 computer vision algorithms库, 有 Matlab toolbox。C++计转载 2017-09-03 21:39:29 · 661 阅读 · 0 评论 -
盘点十大机器学习优缺点
1. K近邻 算法采用测量不同特征值之间的距离的方法进行分类。 1.1 优点简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型数据和离散型数据; 训练时间复杂度为O(n),无数据输入假定; 对异常值不敏感。1.2 缺点计算复杂性高;空间复杂性高; 样本不平衡问题(即有些类别的样本数量很多,转载 2017-09-04 09:29:24 · 2637 阅读 · 0 评论 -
计算机视觉论文集
整理各大会议的papers:http://www.cvpapers.com/CVPR:1、http://www.cv-foundation.org/openaccess/CVPR2015.py原创 2017-08-12 10:17:53 · 740 阅读 · 0 评论 -
深度学习论文和开源代码
语义分割: Awesome Semantic Segmentation https://github.com/mrgloom/awesome-semantic-segmentationSemantic Segmentation Algorithms Implemented in PyTorch https://github.com/meetshah1995/pytorch-sems转载 2017-08-12 10:30:55 · 3996 阅读 · 0 评论 -
解毒batch normalization
本文转载自:http://blog.csdn.net/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization,简称BN,来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,是一篇很好的转载 2017-08-10 20:56:58 · 415 阅读 · 0 评论 -
Kmeans和KNN算法的异同
Kmeans和KNN算法是聚类cluster中经典的算法,两者既有类似性也存在不同点。两个算法的缺点:无法自行自动确定样本分类数量,需要先验知识!Kmeans算法的思想:随机给出数据的k个类的初始点,然后遍历所有的数据点,样本到各个初始点的距离(欧拉或者曼哈顿距离),距离最小的则将该样本归为当前初始点相同类,直到遍历完所有样本点。此时对各个类进行求平均值,更新本类的中心原创 2017-03-08 21:43:58 · 3272 阅读 · 0 评论 -
机器学习三种数据集的作用
利用交叉验证方法选择模型思路是:使用训练集(trainset)数据所有候选模型进行参数估计,使用验证集(validationset)为检验样本,然后计算预测均方误差,比较各个模型的预测均方误差,选择预测均方误差最小的拟合模型为选择模型。 测试集用于对模型的泛化能力的评估!原创 2017-04-11 23:11:47 · 4796 阅读 · 0 评论 -
计算机视觉、机器学习相关领域论文和源代码大集合
源码及论文内容较为陈旧,供初学者学习参考。一、特征提取Feature Extraction:· SIFT [1] [Demo program][SIFT Library] [VLFeat]· PCA-SIFT [2] [Project]· Affine-SIFT [3] [Project]· SURF [4] [OpenSURF] [Matlab转载 2017-05-05 15:38:00 · 411 阅读 · 0 评论 -
随机模拟和采样方法
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就是一类近转载 2017-04-24 23:41:09 · 1272 阅读 · 0 评论 -
稀疏表示学习
1.提出问题:什么是稀疏表示 假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻找一个系数矩阵A(K*N)以及一个字典矩阵B(M*K),使得B*A尽可能的还原X,且A尽可能的稀疏。A便是X的稀疏表示。书上原文为(将一个大矩阵变成两个小矩阵,而达到压缩)“为普通稠密表达的样转载 2017-04-25 21:22:42 · 18716 阅读 · 5 评论 -
L0、L1与L2范数各自功能
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都转载 2017-04-25 22:24:52 · 887 阅读 · 0 评论 -
核范数与规则项参数选择
机器学习中的范数规则化之(二)核范数与规则项参数选择zouxy09@qq.comhttp://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 三、核范数 核范数||W||*是指矩阵奇异转载 2017-04-25 22:28:45 · 3470 阅读 · 0 评论 -
常见优化方式
前言(标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient d转载 2017-08-10 08:41:25 · 497 阅读 · 0 评论 -
超参数及其调节
1. 超参数有哪些 与超参数对应的是参数。参数是可以在模型中通过BP(反向传播)进行更新学习的参数,例如各种权值矩阵,偏移量等等。超参数是需要进行程序员自己选择的参数,无法学习获得。 常见的超参数有模型(SVM,Softmax,Multi-layer Neural Network,…),迭代算法(Adam,SGD,…),学习率(learning rate)(不同的迭代算法还有各种不转载 2017-09-04 09:38:29 · 4056 阅读 · 0 评论 -
计算机视觉与深度学习公司
计算机视觉与深度学习公司深度学习是大数据下最热门的趋势之一。上一个十年是互联网的时代,下一个十年将是人工智能的时代。国内已经产生大量的人工智能公司,分布在不同的领域。2016年是人工智能的元年,2017年将迎来“人工智能+”的春天。未来几年也是人工智能在金融、医疗、教育等大数据行业以及感知交互领域全面渗透的时期,我们正迎来人工智能产业应用百花齐放的时代。安防、金融、医疗、汽转载 2017-08-22 16:41:08 · 1503 阅读 · 0 评论 -
机器学习面试
作者:牛客网链接:https://www.zhihu.com/question/23259302/answer/219153454来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。2018届校招面经精选1、菜鸟图像图形算法 内推 一面2、机器学习算法面经3、百度面试一面4、京东云算法工程师一面分享5、京东算法工程师一面面经转载 2017-08-25 20:16:39 · 1976 阅读 · 0 评论 -
DSD训练法—压缩神经网络模型
1. 当前的训练方法有不足之处压缩模型而不丢失其精确度意味着在训练好的模型中有严重的冗余,这说明当前的训练方法有不足之处。为了解决这个问题,我和来自NVIDIA的JeffPool、百度的Sharan Narang和Facebook的Peter Vajda合作开发了“密集-稀疏-密集”(DSD)的训练方法。这是一种新的方法,它首先通过稀疏约束的优化方法将模型正则化,然后通过恢复和重新训练被剪枝的连接的原创 2017-09-08 11:27:49 · 1821 阅读 · 0 评论 -
提高tf代码效率
转载:http://blog.csdn.net/hjimce/article/details/56292982转载 2017-09-08 14:22:49 · 423 阅读 · 0 评论 -
gibbs采样
1.gibbs简析: gibbs采样需要知道样本中一个属性在其它所有属性下的条件概率,然后利用这个条件概率来分布产生各个属性的样本值。gibbs采样属于随机模拟抽样算法中的一种(一类近似求解的方法)。随机模拟的核心是对一个分布进行抽样,常用的抽样算法包括:1. 接受-拒绝抽样;2)重要性抽样;3)MCMC(马尔科夫链蒙特卡洛方法)方法,它包括两个非常著名的采样算法(metropolis-h转载 2017-09-09 15:04:10 · 960 阅读 · 0 评论 -
机器学习和数据挖掘招聘
平台研究类数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发、并行计算、分布式计算等方面的知识;算法研究类文本挖掘,如领域知识图谱构建、垃圾短信过滤等; 推荐,广告推荐、APP 推荐、题目推荐、新闻推荐等; 排序,搜索结果排序、广告排序等; 广告投放效果分析; 互联网信用评价; 图像识别、理解。数据挖掘类 商业转载 2017-09-19 15:58:02 · 1916 阅读 · 0 评论 -
如何处理训练集中类样本不平衡问题
原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原转载 2017-09-21 16:26:25 · 1133 阅读 · 0 评论 -
机器学习面试题目总结
1.机器学习中特征的理解def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间降维:将原有的特征重组成为包含信息更多的特征,改变了原有的特征空间降维的主要方法Principal Component Analysis(主成分分析)Singular Value Decomposition(奇异值分解)Sammon’s Mapping(Sa转载 2017-11-15 18:26:55 · 456 阅读 · 0 评论 -
CV数据集
DetectionPASCAL VOC 2009 datasetClassification/Detection Competitions, Segmentation Competition, Person Layout Taster Competition datasetsLabelMe datasetLabelMe is a web-based image annotation too转载 2018-01-08 22:14:25 · 1556 阅读 · 0 评论 -
opencv响应鼠标事件
1 #include <cv.h> 2 #include <highgui.h> 3 #include <stdio.h> 4 5 #pragma comment(lib,"C:\\Program Files\\OpenCV1.0\\lib\\cv.lib") 6 #pragma comment(lib,"C:\\Program Files\\O...转载 2018-08-15 10:26:28 · 1544 阅读 · 0 评论 -
深度学习中 epoch,batch size, iterations
转自:http://blog.csdn.net/qq_18515405/article/details/51821125在大部分深度学习架构中都抛不开三个概念epoch,[batch size], iterations;接下来就对这三个概念逐一解释一下one epoch:所有的训练样本完成一次Forword运算以及一次BP运算batch size:一次Forword运算以及BP运算中所需要的训练样本转载 2017-09-07 21:25:50 · 939 阅读 · 0 评论 -
神经网络超参数影响
原创 2017-08-30 09:53:28 · 1086 阅读 · 0 评论 -
机器学习模型性能度量
分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数 →→ 误报 (Type I error).False Negative(假负 , FN):将正类预测为负类数 →→ 漏报 (Type II error).转载 2017-08-29 15:13:40 · 425 阅读 · 0 评论 -
GoogleNet家族
一、GoogLeNet相关论文及下载地址[v1] Going Deeper withConvolutions, 6.67% test error,2014.9论文地址:http://arxiv.org/abs/1409.4842[v2] Batch Normalization:Accelerating Deep Network Training by Reducing Internal转载 2017-08-23 09:59:38 · 2100 阅读 · 0 评论 -
VGGNet
论文地址:https://arxiv.org/abs/1409.1556VGGNet是牛津大学计算机视觉组(VisualGeometry Group)和GoogleDeepMind公司的研究员一起研发的的深度卷积神经网络。VGGNet探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。VGGNet转载 2017-08-23 10:13:17 · 3132 阅读 · 0 评论 -
AlexNet
论文地址:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf中文翻译:http://blog.csdn.net/liumaolincycle/article/details/504964991. 网络结构2012年,Hinton的学生Al转载 2017-08-23 10:18:52 · 923 阅读 · 0 评论 -
Autoencoder
转载:http://blog.csdn.net/marsjhao/article/details/73480859一、什么是自编码器(Autoencoder)自动编码器是一种数据的压缩算法,其中数据的压缩和解压缩函数是数据相关的、有损的、从样本中自动学习的。在大部分提到自动编码器的场合,压缩和解压缩的函数是通过神经网络实现的。1)自动编码器是数据相关的(data-specific转载 2017-08-23 10:24:31 · 5560 阅读 · 3 评论 -
100款机器学习数据集
Kaggle书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】https://www.kaggle.com/zygmunt/goodbooks-10k 带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】https://www.kaggle.com/maxhorowitz/nflplaybypl转载 2017-09-05 08:23:19 · 15715 阅读 · 1 评论 -
文章标题
为什么要调整学习速率? 随着时间的推移,调整学习速率与根据道路条件对汽车的速度进行调整相似。在高速公路等平稳宽阔的道路上,我们可以提高速度(学习速率),但是在狭窄的丘陵或山谷道路上,我们必须放慢速度。此外,我们不希望在高速公路上行驶得太慢,否则我们需要太长时间才能到达目的地(由于参数不正确而导致更长的训练时间)。同样,我们也不想在丘陵和狭窄的道路上(如优化损失函数曲面的沟壑)驾驶太快,因为转载 2017-09-05 09:29:00 · 331 阅读 · 0 评论