程序员的机器学习入门笔记
文章平均质量分 78
作为一个自从毕业以来就从事码农工作的我,已经放下了数学多年,想要理解机器学习中众多算法的数学背景实在有点困难,所以本系列的博客也都是站在程序员(“理解算法,会用算法”)的角度去对算法进行总结
博文终止“我们不生产算法,只是算法的搬运工”。
铁猴
热爱Java,热爱大数据,热爱技术!
展开
-
程序员的机器学习入门笔记(十一):简单人脸识别系统实践
说明机器学习的一个主要应用范围就是对客观事物的识别,也成为模式识别。模式识别的主要研究目标就是赋予机器可以对生物的信息进行识别和处理。目前关于模式识别的应用已经得到了比较广泛的应用,例如 人脸识别,声音识别,瞳孔识别。在 前面两篇文章中(http://blog.csdn.net/eric_sunah/article/details/60139602) http://blog.csdn.net/eri原创 2017-03-06 13:03:16 · 5997 阅读 · 0 评论 -
程序员的机器学习入门笔记(九):人脸检测之Haar分类器方法:Haar特征、积分图、 AdaBoost 、级联
一、Haar分类器的前世今生 人脸检测属于计算机视觉的范畴,早期人们的主要研究方向是人脸识别,即根据人脸来识别人物的身份,后来在复杂背景下的人脸检测需求越来越大,人脸检测也逐渐作为一个单独的研究方向发展起来。 目前的人脸检测方法主要有两大类:基于知识和基于统计。Ø 基于知识的方法:主要利用先验知识将人脸看作器官特征的组合,根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间转载 2017-03-03 14:30:51 · 3768 阅读 · 0 评论 -
程序员的机器学习入门笔记(十):人脸识别核心算法PCA的前世与今生(强烈推荐)
转载自:http://blog.codinglabs.org/articles/pca-tutorial.html######################################################################################################PCA(Principal Component Analysis)是一种常用的数据转载 2017-03-03 14:56:10 · 6441 阅读 · 2 评论 -
程序员的机器学习入门笔记(八):最优化与计算复杂度概述
最优化定义无论做何事,人们总希望用最小的代价来取得最大的收益,为此人们发明了各种各样的数据工具(导数,微积分),并尝试使用这些知识来最优化解决实际问题。但是在解决实际问题最优化解的时候,经常是伴随着两个重要的特征多元化:事物的发展受到多种因素的影响非线性:发展规律是非线性的为了解决上面的两个问题,二战后线性规划诞生了最优化数学定义最优化问题是应用数学的重要研究领域。它是研究在给定约束之下如何寻原创 2017-01-22 17:55:07 · 3803 阅读 · 5 评论 -
程序员的机器学习入门笔记(三):数据挖掘中矩阵的那些事
前面两篇文章对机器学习中的一些概念,以及开发环境的搭建做了简单的介绍。本文主要用来总结关于矩阵的一些知识。“矩阵”这个词听起来充满了数学色彩,一看到这个词,一大堆的数据公式,符号,等等已经在我脑海中进行闪现,可是等我硬着头皮把相关的知识点看完后,觉得也就没有那么难了,毕竟我们知识搬运工,所以对它也不需要研究的那么深入,只需要知道一些基础知识就可以了。定义数学系的定义:“原创 2016-08-24 10:54:53 · 2082 阅读 · 0 评论 -
程序员的机器学习入门笔记(五):文本分类的入门介绍
背景说明可以说在分析机器学习的数据源中最常见的知识发现主题是把数据对象或事件转换为预定的类别,再根据类别进行专门的处理,这是分类系统的基本任务。文本分类也如此:其实就是为用户给出的每个文档找到所属的正确类别(主题或概念)。想要实现这个任务,首先需要给出一组类别,然后根据这些类别收集相应的文本集合,构成训练数据集,训练集既包括分好类的文本文件也包括类别信息。 今天,在互联网的背景下自动化的文本分类被广原创 2016-10-13 12:01:23 · 5689 阅读 · 5 评论 -
程序员的机器学习入门笔记(六):决策树的入门介绍
介绍历史背景决策树算法是最早的机器学习算法之一。早在 1966 年 Hunt,Marin 和 Stone 提出的CLS 学习系统就有了决策树算法的概念。但到了 1979 年, J.R. Quinlan 才给出了 ID3算法的原型, 1983 年和 1986 年他对 ID3 算法进行了总结和简化,正式确立了决策树 学习的理论。 从机器学习的角度来看,这是决策树算法的起点。到 1986 年, Schl原创 2016-11-17 18:25:02 · 2999 阅读 · 0 评论 -
程序员的机器学习入门笔记(七):推荐系统入门介绍
介绍背景随着互联网行业的井喷式发展,获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息,信息量也在以几何倍数式爆发增长。举一个例子,PC时代用google reader,常常有上千条未读博客更新;如今的微信公众号,也有大量的红点未阅读。垃圾信息越来越多,导致用户获取有价值信息的成本大大增加。为了解决这个问题,我个人就采取了比较极端的做法:直接忽略所有推送消息的入口。但在很多时候,有效信原创 2016-12-30 11:08:08 · 1970 阅读 · 0 评论 -
程序员的机器学习入门笔记(二):Python常用库的介绍,及安装(Centos 6.5)
在Python的世界中为数据挖掘产生了很多实用的库,本文主要列出一些常见库的说明,安装,以及使用的小例子,文中的安装以及演示环境都是基于Centos 6.5 的Desktop Mini版进行演示Numpy介绍NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结原创 2016-03-09 21:55:15 · 1604 阅读 · 1 评论 -
程序员的机器学习入门笔记(一):基本概念介绍
一 、概述随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的转载 2016-03-04 15:07:49 · 1662 阅读 · 0 评论 -
程序员的机器学习入门笔记(零):博客说明
接触大数据技术已经两年多,期间使用了Hadoop,Spark等等的大数据框架,发现虽然会用这些东西,但是感觉不掌握个机器学习的相关知识,总觉得大数据的威力不能得到发挥的感觉,于是最近开始进行相关的研究,开始的时候单纯的以为买本Spark机器学习的书看下就差不多了,照着上面的例子噼里啪啦的一顿敲,敲完后才发现根本不是那回事,由于缺乏对算法背景的了解,所以基本都是记忆性的敲,至于为什么那样,以及Spa原创 2016-08-21 16:28:26 · 1664 阅读 · 1 评论