机器学习
文章平均质量分 79
临冬辰
这个作者很懒,什么都没留下…
展开
-
kmenas及其改进算法(python和matlab实现)
December 13, 2015 6:45 PM 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断原创 2015-12-13 19:10:46 · 1979 阅读 · 2 评论 -
[Machine Learning] 机器学习常见算法分类汇总
贝叶斯定理用数学的方法来解释生活中大家都知道的常识形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。贝叶斯定理的发现过程我没有找到相应的资料,不过我相信托马斯.贝叶斯(1702-1761)是通过生活中的一些小问题去发现这个对后世影响深远的定理的,而且我相信贝叶斯发现这个定理的时候,还不知道它居然有这么大的威力呢。转载 2016-01-12 14:52:56 · 1008 阅读 · 2 评论 -
机器学习(一)
最近在Coursera 上学习斯坦福大学的机器学习。根据费曼学习法的理论,教是最好最快最有效果的学习方法。因此,我将会开一系列机器学习相关的文章,同步我的学习进度,并用我自己的理解和语言将我学到的内容写出来。为了防止拖延症的发作,我将会严格制定时间表,尽最大可能保证每周一篇文章。希望这一系列文章能让我更好的理解机器学习,也希望同时能为大家提供学习机器学习的入门参考。原创 2016-01-11 14:15:21 · 697 阅读 · 2 评论 -
C++开发人脸性别识别——通过SVM实现性别识别
支持向量机在解决二分类问题方面有着强大的威力(当然也可以解决多分类问题),性别识别是典型的二分类模式识别问题,因此很适合用SVM进行处理,同时OpenCv又对SVM进行了很好的封装,调用非常方便,因此我们在这个性别识别程序中考虑加入SVM方法。 在这里我们采用了HOG+SVM的模式来进行,即先提取图像的HOG特征,然后将这些HOG特征输入SVM中进行训练。转载 2016-01-08 11:26:23 · 1395 阅读 · 1 评论 -
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)转载 2016-01-07 12:30:45 · 515 阅读 · 1 评论 -
淘宝搜索算法现状
淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进。转载 2016-01-23 09:21:54 · 995 阅读 · 2 评论 -
为什么Hadoop将一定会是分布式计算的未来?
版权声明:写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy 前言: 很久没有写写博客了,之前主要是换工作,耽误转载 2016-01-06 13:17:58 · 602 阅读 · 1 评论 -
机器学习中的算法(2)-支持向量机(SVM)基础
SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;转载 2016-01-05 13:40:07 · 584 阅读 · 1 评论 -
神经网络(Neural Network)
对于非线性分类问题,如果用多元线性回归进行分类,需要构造许多高次项,导致特征特多学习参数过多,从而复杂度太高。转载 2016-01-21 13:14:50 · 1149 阅读 · 2 评论 -
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能会有几百棵以上)棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单(相对于C4.5这种单决策树来说),但是他们组合起来确是很强大。转载 2016-01-04 14:20:43 · 651 阅读 · 1 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。转载 2016-01-03 10:49:08 · 649 阅读 · 1 评论 -
机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。有些资料上也称为是Fisher’s Linear Discriminant,因为它被Ronald Fisher发明自1936年,Discriminant这次词我个人的理解是,一个模型,不需要去通过概率的方法来训练、预测数据,比如说各种贝叶斯方法,就需要获取数据的先验、后验概率等等。LDA是在目前机器学习、数据挖掘领域经典且热门的一个算法,据我所知,百度的商务搜索部里面就用了不转载 2016-01-02 11:34:35 · 605 阅读 · 1 评论 -
机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
最近看的一些论文中发现了模型组合的好处,比如GBDT或者rf,都是将简单的模型组合起来,效果比单个更复杂的模型好。组合的方式很多,随机化(比如random forest),Boosting(比如GBDT)都是其中典型的方法,今天主要谈谈Gradient Boosting方法(这个与传统的Boosting还有一些不同)的一些数学基础,有了这个数学基础,上面的应用可以看Freidman的Gradient Boosting Machine。转载 2016-01-01 12:02:59 · 572 阅读 · 1 评论 -
我的算法学习之路
读书计划的第一步是选择书籍,我曾向当时我觉得很牛的”学长”和”大神”请教应该读哪些算法书籍,”学长”们均推荐算法导论,还有几个”大神”推荐计算机程序设计艺术(现在我疑心他们是否翻过这些书),草草的翻了下这两本书发现实在看不懂,但幸运的是我在无意中发现了豆瓣这个神奇的网站,里面有很多质量不错的书评,于是我就把评价很高而且看上去不那么吓人的计算机书籍都买了下来——事实证明豆瓣要比这些”学长”或是”大神”靠谱的多得多。转载 2016-01-18 18:53:11 · 763 阅读 · 1 评论 -
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。转载 2015-12-30 13:02:22 · 596 阅读 · 2 评论 -
机器学习中的数学(2)-线性回归,偏差、方差权衡
回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。转载 2015-12-31 12:48:35 · 705 阅读 · 1 评论 -
计算机的潜意识
机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(如数据挖掘、计算机视觉等),算法(神经网络,svm)等等。本文的主要目录如下: 1.一个故事说明什么是机器学习 2.机器学习的定义 3.机器学习的范围 4.机器学习的方法 5.机器学习的应用--大数据 6.机器学习的子类--深度学习 7.机器学习的父类--人工智能 8.机器学习的思考--计算机的潜意识转载 2016-01-13 14:15:06 · 879 阅读 · 3 评论