机器学习
文章平均质量分 74
曼陀罗彼岸花
毕业小硕,主研机器视觉,图像处理方向,专注于图像分类,识别,机器视觉方面的研究,愿结识广大同道中人,共同学习!
展开
-
机器学习语言理解
博主主页:http://www.flickering.cn/ads/2014/06/我们是这样理解语言的-1文本分析平台textminer/系列文章[我们是这样理解语言的-1]文本分析平台TextMiner[我们是这样理解语言的-2]统计语言模型[我们是这样理解语言的-3]神经网络语言模型[我们是这样理解语言的-4]说说中文分词[我们是这样理解语言的原创 2015-08-28 17:48:00 · 1156 阅读 · 0 评论 -
SVM基本原理(通俗易懂版)
对于很多分类问题,例如最简单的,一个平面上的两类不同的点,如何将它用一条直线分开?在平面上我们可能无法实现,但是如果通过某种映射,将这些点映射到其它空间(比如说球面上等),我们有可能在另外一个空间中很容易找到这样一条所谓的“分隔线”,将这些点分开。SVM基本上就是这样的原理,但是SVM本身比较复杂,因为它不仅仅是应用于平面内点的分类问题。SVM的一般做法是:将所有待分类的点映射到“高维原创 2015-07-28 11:37:26 · 10151 阅读 · 0 评论 -
机器学习代码整理pLSA、BoW、DBN、DNN
丕子同学整理点自己的代码:Lp_LR、Pagerank(MapReduce)、pLSA、BoW、DBN、DNN听说如果你在github等代码托管平台上有自己的开源工具,可以写进简历,是一个加分~那就整理整理之前的一些代码片段。PG_ROC_PR_R:R语言绘制ROC和PR曲线。RPG_PageRank:mapreduce版本的pagerank计算方法。Shell转载 2015-05-19 11:13:00 · 3663 阅读 · 0 评论 -
大数据定义、思维方式及架构模式
一、大数据何以为大数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来描述一下我所认为的大数据思维。1、大数据的量,数据量足够大,达到了统计性意义,才有价值。笔者看过的一个典型的案例就是,例如传统的,收集几千条数据,很难发现血缘原创 2015-05-21 16:40:25 · 4715 阅读 · 0 评论 -
大数据在营销中的应用
对很多企业来说,大数据的概念已不陌生,但如何在营销中应用大数据仍是说易行难。其实,作为大数据最先落地也最先体现出价值的应用领域,网络营销的数据化之路已有成熟的经验及操作模式。一、获取全网用户数据首先需要明确的是,仅有企业数据,即使规模再大,也只是孤岛数据。在收集、打通企业内部的用户数据时,还要与互联网数据统合,才能准确掌握用户在站内站外的全方位的行为,使数据在营销中体现应有的价值。转载 2015-05-21 16:49:01 · 4755 阅读 · 0 评论 -
大数据思维的十大原理----当样本数量足够大时,你会发现其实每个人都是一模一样的
大数据思维的十大原理----当样本数量足够大时,你会发现其实每个人都是一模一样的大数据思维原理是什么?笔者概括为10项原理。一、数据核心原理从“流程”核心转变为“数据”核心大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架转载 2015-05-21 16:30:42 · 2824 阅读 · 0 评论 -
美团推荐算法实践
美团推荐算法实践前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求转载 2015-05-07 11:06:37 · 787 阅读 · 0 评论 -
深度学习 vs. 概率图模型 vs. 逻辑学
深度学习 vs. 概率图模型 vs. 逻辑学在上个月发表博客文章《深度学习 vs. 机器学习 vs. 模式识别》之后,CMU博士、MIT博士后及vision.ai联合创始人Tomasz Malisiewicz这一次带领我们回顾50年来人工智能领域三大范式(逻辑学、概率方法和深度学习)的演变历程。通过本文我们能够更深入地理解人工智能和深度学习的现状与未来。以下为正文:今天转载 2015-05-10 15:01:45 · 1312 阅读 · 0 评论 -
How-Old.net背后的技术
How-Old.net背后的技术引言为了展现开发者在Azure的帮助下能轻松迅速地打造智能应用,我们在Azure上用新发布的人脸识别APIs为2015年微软开发者大会的第二天展示搭建了How-Old.net。借助人脸识别API这个网站可以分析用户上传的照片中人物的性别和年龄。这个API的人脸定位功能及性别识别功能大致准确,然而年龄预测结果并不是非常准确,但How-Old.n原创 2015-05-07 15:29:59 · 3073 阅读 · 0 评论 -
数据挖掘技术及其应用
一、数据挖掘技术的基本概念随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识转载 2015-04-26 16:18:58 · 6067 阅读 · 0 评论 -
机器学习资料整理
最近看到很好的几个博文,讲解机器学习相关的知识,讲解通俗易懂,简单明了。1. 线性回归与分类, 解决与区别2. 从最大似然再看线性回归3. 贝叶斯怎么想?原创 2015-04-14 10:39:08 · 717 阅读 · 0 评论 -
隐马尔可夫--大内密探HMM围捕赌场老千
1. 赌场风云(背景介绍)最近一个赌场的老板发现生意不畅,于是派出手下去赌场张望。经探子回报,有位大叔在赌场中总能赢到钱,玩得一手好骰子,几乎是战无不胜。而且每次玩骰子的时候周围都有几个保镖站在身边,让人不明就里,只能看到每次开局,骰子飞出,沉稳落地。老板根据多年的经验,推测这位不善之客使用的正是江湖失传多年的"偷换骰子大法”(编者注:偷换骰子大法,用兜里自带的骰子偷偷换掉均匀的骰转载 2015-04-14 09:25:52 · 1150 阅读 · 1 评论 -
各种聚类算法的对比
聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。1、层次聚类算法1.1聚合聚类1.1.1相似度依据距离不同:Single-Link:最近距转载 2015-04-13 16:54:10 · 17031 阅读 · 1 评论 -
SVM(一) 问题的提出
SVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。我看了一下网上的帖子和有关的资料,目前关于SVM大约有3到4个版本,但在网上到处都是转载的内容,最后谁叶不知原稿人是谁。svm主要分有4个问题 1.问题的提出转载 2015-08-27 17:51:42 · 692 阅读 · 0 评论 -
SVM(二)拉格朗日对偶问题
拉格朗日对偶(Lagrange duality)先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏导数等于0转载 2015-08-27 17:53:32 · 787 阅读 · 0 评论 -
无处不在的推荐系统
这篇博客由微软主要研究者Thore Graepel执笔并发表。博客正文好的推荐任何地方都用得着。无论是找一部你可能喜欢的电影,或者一本你可能感兴趣的书籍,甚至是寻求facebook或linkedin上志同道合的朋友,自动推荐系统将会是个得力助手。刚开始自动推荐系统只限于网络用户,如今,随着微软Azure机器学习的不断普及,越来越多的人可以享受到自动推荐系统的优质服务,小到个人大到企转载 2015-04-29 09:40:29 · 973 阅读 · 0 评论 -
Opencv运动物体常用的特征提取与匹配方法
Opencv运动物体常用的特征提取与匹配方法提取图像空间关系特征可以有两种方法:1) 首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域提取图像特征,并建立索引;(分割——块特征——索引)2) 简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。 姿态估计问题:确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作原创 2014-06-04 15:33:52 · 4941 阅读 · 0 评论 -
Opencv运动物体常用的特征提取与匹配方法
Opencv运动物体常用的特征提取与匹配方法提取图像空间关系特征可以有两种方法:1) 首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域提取图像特征,并建立索引;(分割——块特征——索引)2) 简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。 姿态估计问题:确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作原创 2014-06-04 15:34:36 · 1966 阅读 · 0 评论 -
Adaboost 算法实例解析
Adaboost 算法实例1 Adaboost的原理1.1 Adaboost是什么 AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮原创 2015-08-27 21:43:27 · 24733 阅读 · 23 评论 -
图像分类中的SVM多核学习
1摘要 分类在搜索引擎中的应用非常广泛,这种分类属性可以方便在rank过程中针对不同类别实现不同的策略,来更好满足用户需求。本人接触分类时间并不长,在刚用SVM做分类的时候对一个现象一直比较困惑,看到大家将各种不同类型特征,拼接在一起,组成庞大的高维特征向量,送给SVM,得到想要的分类准确率,一直不明白这些特征中,到底是哪些特征在起作用,哪些特征组合在一起才是最佳效果,也不明白为啥这原创 2016-03-12 22:42:21 · 16621 阅读 · 8 评论 -
支持向量机理论及工具LibSVM
支持向量机理论基本篇:支持向量机: Maximum Margin Classifier —— 支持向量机简介。支持向量机: Support Vector —— 介绍支持向量机目标函数的 dual 优化推导,并得出“支持向量”的概念。支持向量机:Kernel —— 介绍核方法,并由此将支持向量机推广到非线性的情况。支持向量机:Outliers —— 介绍支持向量机使用松弛变量原创 2016-03-12 22:51:05 · 1615 阅读 · 0 评论 -
k近邻法
k近邻法 k近邻法(k nearest neighbor algorithm,k-NN)是机器学习中最基本的分类算法,在训练数据集中找到k个最近邻的实例,类别由这k个近邻中占最多的实例的类别来决定,当k=1时,即类别为最近邻的实例的类别。 如上图所示(引自wiki)转载 2015-09-15 22:00:06 · 874 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Models)
隐马尔科夫模型HMM(Hidden Markov Models)来源于现实社会的需求,它是为人们服务的,我们通常都习惯于寻找一个事物在一段时间内的变化规律,并能在特定情况下预测下一变化,比如预测天气等。当然HMM还有一些其他的应用,后面还会提到。既然HMM用处是具有实际意义的,那么下面我们来学习它。实际生活中,有的时候状态的转变是固定的,如红绿灯的变化规律,下一状态是已知的,这种模原创 2015-08-29 23:18:13 · 1348 阅读 · 0 评论 -
EM算法深入浅出
最近学习了下EM算法,看了下李航的《统计学习方法》第九章EM算法,被一堆理论+公式看的云里雾里的,头大。但是幸好看了从最大似然到EM算法浅解博文,对EM算法算是有了感性的认识,然后拜读Jerry大师的(EM算法)The EM Algorithm的理论分析,醍醐灌顶的感觉,总结如下(某大牛的分享):我理解的EM算法是最大似然估计方法--参数估计方法的一种 为什么要引入EM呢 我觉得 因为参数原创 2015-08-29 19:30:17 · 1048 阅读 · 0 评论 -
条件随机场 (conditional random fields )模型
条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。条件随机场模型(conditional random f原创 2015-08-30 11:31:18 · 9709 阅读 · 0 评论 -
SVM(三)支持向量机,线性不可分和核函数
3.1 线性不可以分我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张图:可以看到一个离群点(可能是噪声)可以造成超平面的移动,间隔缩转载 2015-08-27 17:55:11 · 1297 阅读 · 0 评论 -
SVM(四) 支撑向量机,二次规划问题
SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Tra转载 2015-08-28 18:13:51 · 3053 阅读 · 0 评论 -
Boosting,AdaBoost ,Online Boosting,online Adaboost介绍
Boosting,AdaBoost ,Online Boosting,online AdaboostBoosting Boosting这其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比原创 2015-08-28 18:05:27 · 1330 阅读 · 0 评论 -
协同过滤算法
引子:一个人想看电影的时候常常会思考要看什么电影呢。这个时候他可能会问周围爱好的人求推荐。现在社会每天都会产生海量的信息。面对这么多信息好多人都不知道什么信息是自己需要的。推荐系统正是起了这么一个作用。推荐系统的应用随处可见。网络购物是一个典型的例子,电子商务的运营商往往会根据用户在网站的行为推荐用户可能会购买的商品。豆瓣FM是做的一个非常好的电台,这个电台能够根据用户的历史行为学习出用户喜欢歌曲原创 2015-03-31 10:07:03 · 794 阅读 · 0 评论 -
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps引言机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的转载 2015-03-31 09:38:13 · 15633 阅读 · 2 评论 -
Deformable Part Model的学习
Deformable Part Model是最近两年最为流行的图像中物体检测模型,利用这个模型的方法在近几届PASCAL VOC Challenge中都取得了较好的效果。其作者,芝加哥大学的Pedro Felzenszwalb教授,也因为这项成就获得了VOC组委会授予的终身成就奖。有人认为这个模型是目前最好的物体检测算法。不同于bag of features和hog模板匹配,这转载 2014-03-27 16:40:41 · 891 阅读 · 0 评论 -
如何为分类问题选择合适的机器学习算法
若要达到一定的准确率,需要尝试各种各样的分类器,并通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法或者一个起点,以下准则有利于选择合适的分类器:你的训练集有多大?如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低原创 2014-05-22 15:07:32 · 2193 阅读 · 0 评论 -
Andrew Ng机器学习课程总结
Andrew Ng机器学习课程总结Andrew Ng的机器学习课程讲授的详尽而又易于理解,适合初学者。相关资源见斯坦福公开课与Ng的主页,英文不好的同学推荐网易公开课。Ng的课件关于理论介绍的很好,这里只做摘要,具体参见其课件。主要知识点:线性回归梯度下降最小二乘似然估计 logistic回归感知器 1)回归:对连续变量的预测。2)线性回归(Linear Regression):假原创 2014-05-07 10:53:24 · 2037 阅读 · 0 评论 -
主成分分析、因子分析、聚类的概览与比较
主成分分析、因子分析、聚类的概览与比较主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差——协方差结构,即每个主成分都是原始变量的线性组合,且各主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。求解原创 2014-05-06 21:28:56 · 5565 阅读 · 0 评论 -
支持向量机理解和总结
1 SVM1.1 SVM的正确理解 SVM的基本原理普遍表述:SVM通过非线性变换把原空间映射到高维空间,然后在这个高维空间构造线性分类器(在高维空间数据点更容易分开)。甚至有部分学者认为SVM可以克服维数灾难(curseof dimensionality)。 如果这样理解SVM的基本原理,我觉得还没有看到问题的本质。因为这个看法不能解释下面的事实:SVM在高维空间里构建分原创 2014-05-06 22:13:53 · 3571 阅读 · 0 评论 -
The Most Important Algorithms (in CS and Math)
本文是Christoph Koutschan列出来的32类计算机与数学领域最为重要的算法(按字符顺序排列)。覆盖的面很广,评价很精准。链接中加入了自己总结过的文章(或者用到该算法的例子),后面有时间将根据重点算法继续补充。原文转载from:http://www.risc.jku.at/people/ckoutsch/stuff/e_algorithms.html转载 2014-03-21 10:22:32 · 728 阅读 · 0 评论 -
Andrew NG 机器学习听课笔记(2)——过学习与欠学习,最小二乘的概率意义、logistic回归
本文是Andrew NG先生机器学习公开课第二课的听课笔记,由于csdn中对mathtype公式的显示问题,所以直接以图片格式发表。本系列是由公开课的学习和一些自己的理解组成的。转载 2014-03-19 20:29:18 · 1030 阅读 · 0 评论 -
AndrewNG机器学习听课笔记(1 )——线性回归(linear regression)
Andrew NG机器学习听课笔记(1) ——线性回归(linear regression)听课的时候只是觉得这老师讲课听起来真舒服,等差不多的时候,实验室一小子说这货就是大名鼎鼎的coursera的创始人之一NG先生,此时此刻,在自责我自己有眼无珠的同时也暗暗的庆幸,能搜到这样的公开课实属万幸转载 2014-03-19 20:28:19 · 1131 阅读 · 1 评论 -
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
转载:http://blog.csdn.net/yangliuy/article/details/8296481以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍转载 2014-03-08 21:36:19 · 828 阅读 · 0 评论 -
机器学习与人工智能学习资源导引
机器学习与人工智能学习资源导引TopLanguage(https://groups.google.com/group/pongba/) 我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖掘)、信息检索 这些无疑是 CS 领域最好玩的分支了(也是互相紧密联系的),这里将最近转载 2014-03-08 21:30:09 · 848 阅读 · 0 评论