机器学习
文章平均质量分 75
wbglearn
语音识别 机器学习 推荐系统 深度学习欢迎和大家讨论和交流。
展开
-
推荐系统五大问题
本文翻译于互联网观察媒体“读写网”在2009年初发布的一篇文章。读写网在2009年初的时候编辑了一系列针对推荐系统的文章,在荷兰阿姆斯特丹举办的一次专门针对推荐系统的兴趣小组会议上,一些公司提出了实施和建设推荐系统需要面对的几个问题,本文针对这些问题,进行了初步的分析。在此与大家分享:1. 缺少数据对于推荐系统来说,可能最大的问题就是需要大量的数据才能产生推荐结果。这也是为什么那些表现转载 2013-08-25 18:16:59 · 1766 阅读 · 0 评论 -
公开课笔记大盘点
转自:http://blog.coursegraph.com/公开课笔记大盘点网上散落了很多同学的公开课学习笔记,这里就尝试来做一些汇总和整理,也欢迎大家提供线索。1、Coursera上Andrew Ng老师的”机器学习公开课(Machine Learning)”课程图谱上的明星课程,关注人数最多,评论最多,并且网上这门课程的笔记也是相当的多:1)@小小人_转载 2013-12-06 22:57:54 · 1561 阅读 · 0 评论 -
机器学习理论与实战(七)Adaboost
Adaboost也是一种原理简单,但很实用的有监督机器学习算法,它是daptive boosting的简称。说到boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来来进行分类的方法,统称为集成方法(ensemble method),类似于投资,“不把鸡蛋放在一个篮子”,虽然每个弱分类器分类的不那么准确,但是如果把多个弱分类器组合起来可以得到相当不错的结果,另外要转载 2013-07-20 19:52:38 · 1257 阅读 · 0 评论 -
机器学习自学指南
事实上有许多的途径可以了解机器学习,也有许多的资源例如书籍、公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手。本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学习指引。机器学习的四个层次根据能力可以将学习过程分成四个阶段。这也是一个有助于我们将所有学习资源进行分类的好方法。初学阶段新手阶段中级阶段高级阶段我之所以把初学转载 2014-02-21 22:49:10 · 2187 阅读 · 0 评论 -
机器学习理论与实战(十一)关联规则分析Apriori .
《机器学习实战》的最后的两个算法对我来说有点陌生,但学过后感觉蛮好玩,了解了一般的商品数据关联分析和搜索引擎智能提示的工作原理。先来看看关联分析(association analysis)吧,它又称关联规则学习(association rule learning),它的主要工作就是快速找到经常在一起的频繁项,比如著名的“啤酒”和“尿布”。试想一下,给我们一堆交易数据,每次的交易数据中有不同的商品,转载 2013-08-12 21:31:31 · 2263 阅读 · 0 评论 -
机器学习理论与实战(八)回归
按照《机器学习实战》的主线,结束有监督学习中关于分类的机器学习方法,进入回归部分。所谓回归就是数据进行曲线拟合,回归一般用来做预测,涵盖线性回归(经典最小二乘法)、局部加权线性回归、岭回归和逐步线性回归。先来看下线性回归,即经典最小二乘法,说到最小二乘法就不得说下线性代数,因为一般说线性回归只通过计算一个公式就可以得到答案,如(公式一)所示:(公式一)其中X是表示样本特征组成的转载 2013-07-20 19:54:06 · 1302 阅读 · 0 评论 -
机器学习理论与实战(一)K近邻法
机器学习分两大类,有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类:分类(classification.)和回归(regression),分类的任务就是把一个样本划为某个已知类别,每个样本的类别信息在训练时需要给定,比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值,比如给定房屋市场的数据(面转载 2013-07-20 19:29:56 · 1256 阅读 · 0 评论 -
机器学习理论与实战(十二)神经网络 .
神经网络又火了,因为深度学习火了,所以必须增加个传统神经网络的介绍,尤其是back propagation算法。很简单,俺也就不舞文弄墨的说复杂咯,神经网络模型如(图一)所示:(图一) (图一)中的神经网络模型是由多个感知器(perceptron)分几层组合而成,所谓感知器就是单层的神经网络(准确的说应该不叫神经网络咯),它只有一个输出节点,如(图二)所示:转载 2013-08-12 21:30:37 · 1423 阅读 · 0 评论 -
机器学习理论与实战(十)K均值聚类和二分K均值聚类 .
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析、关联性分析等。主要包括K均值聚类(K-means clustering)和关联分析,这两大类都可以说的很简单也可以说的很复杂,学术的东西本身就一直在更新着。比如K均值聚类可以扩展一下形成层次聚类(Hierarchical Clustering),也可以进入概率分布的空间进行聚类,就像前段时间转载 2013-08-01 22:59:54 · 1096 阅读 · 0 评论 -
机器学习理论与实战(四)逻辑回归
从这节算是开始进入“正规”的机器学习了吧,之所以“正规”因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证。这整套的流程是机器学习必经环节。今天要学习的话题是逻辑回归,逻辑回归也是一种有监督学习方法(supervised machine learning)。逻辑回归一般用来做预测,也可以用来做分类,预测是某个类别^.^!线性回归想比大家都不陌生了,y=k转载 2013-07-20 19:44:40 · 1303 阅读 · 0 评论 -
机器学习理论与实战(六)支持向量机
上节基本完成了SVM的理论推倒,寻找最大化间隔的目标最终转换成求解拉格朗日乘子变量alpha的求解问题,求出了alpha即可求解出SVM的权重W,有了权重也就有了最大间隔距离,但是其实上节我们有个假设:就是训练集是线性可分的,这样求出的alpha在[0,infinite]。但是如果数据不是线性可分的呢?此时我们就要允许部分的样本可以越过分类器,这样优化的目标函数就可以不变,只要引入松弛变量即可,它转载 2013-07-20 19:48:42 · 1799 阅读 · 0 评论 -
机器学习理论与实战(五)支持向量机
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子。他的理论很优美,各种变种改进版本也很多,比如latent-SVM, structural-SVM等。这节先来看看SVM的理论吧,在(图一)中A图表示有两类的数据集,图B,C,D都提供了一个线性分类器来对数据进行分类?但是哪个效果好一些?转载 2013-07-20 19:46:54 · 1106 阅读 · 0 评论 -
机器学习理论与实战(三)朴素贝叶斯
贝叶斯决策一直很有争议,今年是贝叶斯250周年,历经沉浮,今天它的应用又开始逐渐活跃,有兴趣的可以看看斯坦福Brad Efron大师对其的反思,两篇文章:“Bayes'Theorem in the 21st Century”和“A250-YEAR ARGUMENT:BELIEF, BEHAVIOR, AND THE BOOTSTRAP”。俺就不参合这事了,下面来看看朴素贝叶斯分类器。有时我转载 2013-07-20 19:41:21 · 1162 阅读 · 0 评论 -
机器学习理论与实战(二)决策树
决策树也是有监督机器学习方法。 电影《无耻混蛋》里有一幕游戏,在德军小酒馆里有几个人在玩20问题游戏,游戏规则是一个设迷者在纸牌中抽出一个目标(可以是人,也可以是物),而猜谜者可以提问题,设迷者只能回答是或者不是,在几个问题(最多二十个问题)之后,猜谜者通过逐步缩小范围就准确的找到了答案。这就类似于决策树的工作原理。(图一)是一个判断邮件类别的工作方式,可以看出判别方法很简单,基本都是阈值判断,关转载 2013-07-20 19:36:06 · 1259 阅读 · 0 评论 -
机器学习理论与实战(九)回归树和模型树
前一节的回归是一种全局回归模型,它设定了一个模型,不管是线性还是非线性的模型,然后拟合数据得到参数,现实中会有些数据很复杂,肉眼几乎看不出符合那种模型,因此构建全局的模型就有点不合适。这节介绍的树回归就是为了解决这类问题,它通过构建决策节点把数据数据切分成区域,然后局部区域进行回归拟合。先来看看分类回归树吧(CART:Classification And Regression Trees),这个模转载 2013-07-28 22:21:20 · 1403 阅读 · 0 评论 -
12本北美比较常用的机器学习/自然语言处理/语音处理经典书籍 .
转载 2013-10-23 22:39:02 · 2622 阅读 · 0 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。转载 2013-10-27 12:48:01 · 1272 阅读 · 0 评论 -
推荐系统算法总结
转自阿俊的博客最近看推荐系统方面的东西也有段日子了,有书,博客,唯独没有看论文。总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。在看书,看大牛们的博客时,学习到了很多算法和思路。现在总结一下:1、Item b转载 2013-08-25 18:15:17 · 1068 阅读 · 0 评论 -
各大推荐引擎资料汇总
最近在做一个推荐的任务,头绪繁多,回头看看同行的工作,希望能有些帮助。零零碎碎看过好多资料,有些已经忘记了,会慢慢补全。也欢迎大家留言补充,尤其是关于豆瓣、新浪微博等的系统经验。之前在推荐系统大会上听过土豆、淘宝和点评的报告,收获不少。欢迎同行加我微博进行交流。视频类Netflix:很多方法的融合,策略可以参考我翻译的blog,架构参考小鱼儿师兄的blog。Hulu转载 2013-08-25 18:13:53 · 1092 阅读 · 0 评论 -
搜索引擎算法之初探——PageRank、DocRank
从文档集合中找出出现搜索词的文档,进一步可能是通过搜索词在文档中出现的次数来对文档排名,这种搜索就是信息检索(Information retrieval)。有很多现有的库可以很方便的就让我们做出来这些工作,其中最有名的当属Lucene了。当然,现在的搜索已不单单是索引了,而在于链接分析、用户点击分析和自然语言处理等方面,这些技术能大大的增强搜索的性能。基本搜索构建一个搜索引擎的基本步骤转载 2013-08-20 19:41:06 · 1376 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM(Machine Learning & Data Mining交流群:8986884)引言最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟转载 2013-07-20 20:24:26 · 2394 阅读 · 0 评论 -
北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
问答http://www.quora.com/What-is-data-science 数据科学是什么?http://www.quora.com/How-do-I-become-a-data-scientist 我怎样才能成为一个数据科学家?http://www.quora.com/Data-Science/How-does-data-science-differ-fr转载 2013-07-13 13:35:10 · 1416 阅读 · 0 评论 -
十大数据挖掘算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际转载 2013-09-07 14:18:40 · 1214 阅读 · 0 评论 -
国内外推荐系统应用总结
最近对推荐系统非常有兴趣,也在做一些这方面的研究。学习成熟的产品是提升自己产品的一个非常好的方法,所以在这里,我会总结一些国内外推荐系统方面的应用,肯定不会写的全,所以还希望看到这篇文章的童鞋可以帮忙补充。1、商城系统:说起商城系统,甚至说起推荐系统,当然会首推Amazon,Amazon是国内外做推荐系统起步最早的一批公司,而且现在是做的最好的。当你进入首页后,你会看到系统转载 2013-09-02 16:41:14 · 4676 阅读 · 0 评论 -
致2013级学弟学妹----语音和其他
今天由于去教研室弄研究生数学建模,很开心由于我的到来,大家都来实验室。然而,大家在教研室做的事情让我感觉大家还是比较迷茫。而我又是一个多事的人,所以特写下此文,希望可以可以给大家一些帮助,如有任何问题,欢迎讨论。 ok,进入正题。 首先,我来说说语音的事情吧。实验室的很多事情都和语音有关,所以做图像和视频的或许你只是借鉴这些想法吧。第一,介绍书吧。网址:http://n原创 2013-09-08 20:25:15 · 3430 阅读 · 4 评论 -
推荐系统论文分类推荐
推荐系统论文分类推荐搭建1、http://www.cnblogs.com/vivounicorn/archive/2011/09/20/2182433.html2、http://www.cnblogs.com/vivounicorn/archive/2011/10/08/2201986.html3、https://cwiki.apache转载 2013-09-02 16:39:21 · 1612 阅读 · 0 评论 -
推荐系统的循序进阶读物(从入门到精通)
推荐系统-从入门到精通为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述(了解概念-进阶篇转载 2013-09-09 17:08:38 · 1314 阅读 · 1 评论 -
漫谈:机器学习中距离和相似性度量方法
漫谈:机器学习中距离和相似性度量方法在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0转载 2013-09-13 16:23:58 · 1568 阅读 · 1 评论 -
经典的机器学习方面源代码库(数据挖掘,计算机视觉,模式识别,信息检索)
今天给大家介绍一下经典的开源机器学习软件:编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是python(numpy+scipy+matplotlib)和C/C++,这样组合既可搞研究,也可搞商业开发,易用性不比matlab差,功能组合更为强大,个人认为,当然R和java也不错.1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件)转载 2013-09-13 16:08:09 · 1770 阅读 · 0 评论 -
转自MIT牛人林达华的 “图˙谱˙马尔可夫过程˙聚类结构 ”————经典、透彻
题目中所说到的四个词语,都是MachineLearning以及相关领域中热门的研究课题。表面看属于不同的topic,实际上则是看待同一个问题的不同角度。不少文章论述了它们之间的一些联系,让大家看到了这个世界的奇妙。从图说起这里面,最简单的一个概念就是“图”(Graph),它用于表示事物之间的相互联系。每个图有一批节点(Node),每个节点表示一个对象,通过一些边(Edge)把这些点转载 2013-10-08 10:16:39 · 3051 阅读 · 0 评论 -
公开课可下载资源汇总
微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官方也推荐一 些第三方批量下载工具,大家下载课程后也可以考虑共享到网盘里,减轻Coursera官方的下载压力。这里计划做一个汇总,包括一些佚名的来自网络上的课 程资源分享,也欢迎大家提供线索或者补充公开课网盘资源。1、Coursera上Andrew Ng老师的”机器学习公开课转载 2013-10-26 22:31:46 · 4911 阅读 · 0 评论 -
Science上发表的超赞聚类算法
作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.算法思想该算法的假设是类簇的中心由一些局部密度比较低的点围绕, 并且这些点距离其他有高局部密度的点的距离都比较大. 首先定义两个值: 局部密度ρi以及到高局部密度点的距离δi:ρi=∑jχ(dij−dc)其中转载 2014-06-29 12:10:54 · 2418 阅读 · 0 评论