机器学习
overstack
中大研究生喜欢linux后台技术各种架构研究方向是机器学习和数据挖掘
展开
-
2014 Machine Learning Summer School
MLSS 6月份在北京的一些关于及其学习的资料,有一些很bucu原创 2014-06-18 01:00:46 · 5378 阅读 · 0 评论 -
deep learning一些实现
Github上面关于C/C++/JAVA/PYTHON等多版本的deep learning实现源代码:https://github.com/yusugomori/DeepLearning原创 2013-06-01 15:44:26 · 841 阅读 · 0 评论 -
百度技术沙龙
InfoQ上关于百度技术沙龙的一个专题:http://www.infoq.com/cn/zones/baidu-salon/index.html上面有各期嘉宾的详细介绍和演讲,最重要的是有视频。原创 2013-06-01 02:19:51 · 975 阅读 · 0 评论 -
有关DBN的一点小心得
关于DBN我一直有以下三个问题:1.什么是complementary priors?2.为什么说RBM展开后可以当成sigmoid belief network with tied parameters呢?3.为什么Greedy Layerwise Training可以把DBN的每层当成RBM来训练呢?经过这几天的冥思苦想,我得出来了一些对于我个人来说比较可以接受的解释,这转载 2013-06-10 12:59:34 · 5472 阅读 · 1 评论 -
deep learning for NLP courses
2013关于deep learning一门新的课程:Deep Learning for NLP (without Magic)http://nlp.stanford.edu/courses/NAACL2013/原创 2013-06-10 15:12:00 · 1180 阅读 · 0 评论 -
新的机器学习工具-Waffles
download link:http://sourceforge.net/projects/waffles/?source=dlpWaffles是一款跨平台的、基于命令行的机器学习开发包,包含了现有的主要机器学习算法,完全开源,用C++编写,使用方便。该工具包的强大之处非常多,很重要的一个方面就是其在非监督学习方面的包罗万象,特别是降维算法,实现了PCA、isomap、LLE、转载 2013-06-10 01:44:05 · 1339 阅读 · 0 评论 -
斯坦福大学自然语言处理第五课“拼写纠错(Spelling Correction)”
一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇总下载地址:转载 2013-05-14 21:12:18 · 4211 阅读 · 1 评论 -
What is the expectation maximization algorithm?
he expectation maximization algorithm arises in many computational biology applications that involve probabilistic models. What is it good for, and how does it work?IntroductionProbabilist转载 2013-05-26 22:50:19 · 1635 阅读 · 0 评论 -
胡侃“深度学习”
本来在阳光明媚的周末午后一边品茶一边写程序感觉岁月挺静好的,结果看到一条关于“深度学习”的微薄不知怎么就好像突然被挠了痒处,开始坐立不安无心继续编程了,不释放点什么感觉不会恢复平静了,于是索性写个博客胡侃些至此为止我对深度学习的一些浅薄的看法吧。作为一个机器学习领域的无名晚辈,我对以机器学习泰斗Geoffrey Hinton(www.cs.toronto.edu/~hinton/)领衔以及转载 2013-05-25 22:02:42 · 1101 阅读 · 0 评论 -
Generalized linear models and linear classification
在听张潼讲一些线性模型的课程,为方便以后回忆,贴一些图再加上点注释。首先讲到了svm loss和logistic loss之间的优缺点。logistic loss能够给出概率值,但是svm loss不能。但反过来说logistic loss并不能给出一个separateble的解,因为只有-f(x)*y等于正无穷或者负无穷的时候logistic loss才会是0或者1,但是svm却原创 2013-06-15 21:06:01 · 1066 阅读 · 0 评论 -
百度图像搜索探秘
昨天,百度上线了新的相似图(similar image search)搜索,试了风景、人物、文字等不同类型query的效果,感觉效果非常赞。尤其对于人物搜索,返回的结果在颜色、以及姿态方面具有非常大的相似性。特别是在输入某个pose的美女图片时,会搜到一系列相近pose的美女图片,真的是宅男之福啊。本着娱乐精神,贴一个搜索结果供大家yy。我们知道这个产品底层转载 2013-06-07 20:11:41 · 1350 阅读 · 0 评论 -
More Is Always Better: The Power Of Simple Ensembles
自己总结一下要点:1. LR和RF这两个model进行ensemble的效果比较好,因为这两个model有各自的优缺点:一个是线性的,一个非线性的;一个对noise的容忍度高,一个比较低。 2. 模型ensemble的权重选择: 50-50的平均能取得很好的结果。 3. 对于排序结果的ensemble,可以给不同位置一个分数然后不同模型进行投票。例如rank 1:1分 rank2:0.5分(1/2转载 2013-06-25 13:58:17 · 1716 阅读 · 0 评论 -
机器学习 实用技巧
和大多数人一样,小弟对各种机器学习和数据挖掘算法都小有兴趣,常用的算法也都知道基本思想,但尝试不多。最近收集了一些算法的实用技巧,待有空时仔细研读。(1)机器学习那些事 & 机器学习根基那些事儿:http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf根基:http://www.cs.cmu.edu/~tom/pubs转载 2014-06-12 01:47:19 · 5498 阅读 · 0 评论 -
Machine Learning Done Wrong(机器学习七种易犯的错误)
作者总结了机器学习七种易犯的错误:1.想当然用缺省Loss;2.非线性情况下用线性模型;3.忘记Outlier;4.样本少时用High Viriance模型;5.不做标准化就用L1/L2等正则;6.不考虑线性相关直接用线性模型;7.LR模型中用参数绝对值判断feature重要性。转载 2014-06-05 17:45:35 · 5595 阅读 · 1 评论 -
数据分析的陷阱
1.辛普森悖论WIKI原始连接:http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年转载 2014-07-15 10:14:02 · 11363 阅读 · 0 评论 -
【机器学习系列】机器学习16本免费电子书
The LION Way: Machine Learning plus Intelligent Optimizationby Roberto Battiti, Mauro Brunato - Lionsolver, Inc., 2013The introduction of the book says, “Learning and Intelligent Optimization (L转载 2014-03-25 23:11:37 · 5470 阅读 · 0 评论 -
分布式机器学习的故事(四):Rephil和MapReduce——描述长尾数据的数学模型
Google Rephil是Google AdSense背后广告相关性计算的头号秘密武器。但是这个系统没有发表过论文。只是其作者(博士Uri Lerner和工程师Mike Yar)在2002年在湾区举办的几次小规模交流中简要介绍过。所以Kevin Murphy把这些内容写进了他的书《Machine Learning: a Probabilitic Perspecitve》里。在吴军博士的《数学之美转载 2014-02-21 12:54:48 · 8576 阅读 · 1 评论 -
svd++
SVD++ refers to a matrix factorization model which makes use of implicit feedback information. In general, implicit feedback can refer to any kinds of users' history information that can help indi转载 2013-05-31 20:50:21 · 7166 阅读 · 1 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2013-11-11 00:58:26 · 1273 阅读 · 0 评论 -
谈谈机器学习(Machine Learning)大家 (full version)
闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,并且仅局限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知,所以不对的地方大家仅当一笑。 Machine Learning 大家(1):M. I. Jordan (http://www.cs.berkeley.edu/~jordan/) 在我的眼里,M Jord转载 2013-07-02 09:43:48 · 1436 阅读 · 0 评论 -
程序员必知:平凡而又神奇的贝叶斯方法
0. 前言1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式2. 拼写纠正3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(BayesianOccam’s Razor) 3.3 最小描述长度原则 3.4 最优贝叶斯推理4转载 2013-06-26 20:57:47 · 1512 阅读 · 0 评论 -
Kaggle’s WordPress Challenge: The Like Graph
I’d like to start this blog by discussing my first Kaggle data science competition – specifically, the “GigaOM WordPress Challenge”. This was a competition to design a recommendation engine for Wo转载 2013-06-25 14:06:25 · 1328 阅读 · 0 评论 -
Coursera公开课笔记: 斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)”
斯坦福大学机器学习斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)””学习笔记,本次课程主要包括5部分:1) Prioritizing what to work on: Spam classification example(工作的优先级:垃圾邮件分类例子)2) Error analysis(错误分析)3) Err转载 2013-05-20 22:06:49 · 2621 阅读 · 0 评论 -
浅谈互联网环境下的热词发现技术
1 热词发现 随着计算机硬件及互联网络设施的普及,各种技术在互联网上的应用层出不穷,并逐渐呈现出多样化和个性化的特点。互联网用户间沟通的频度和便利程度也大为增加,用户数迅猛增长。在这个背景下,各种特定应用、特定群体下涉及到的新词条、新概念也不断被创造出来。 如何快速、全面、有效地发现和识别互联网中的新词条、新概念,越来越成为一个具转载 2013-05-21 00:57:16 · 4866 阅读 · 0 评论 -
【学习笔记】机器学习的常识
原文:Pedro Domingos, A Few Useful Things to Know about Machine Learning 1. 泛化效果是机器学习的唯一目标训练集上的效果无关紧要,泛化效果是机器学习的唯一目标。稍极端的例子,如果训练集准确率为0%,但随机取的新数据集上准确率为60%。也好过训练集80%,新数据40%的结果。这点不仅对机器学习重要,即使是人转载 2013-05-20 22:15:25 · 1063 阅读 · 1 评论 -
单机模式处理大数据,搜集一些好用的开源利器
1. LibFM项目主页:http://www.libfm.org/2. Svdfeature项目主页:http://apex.sjtu.edu.cn/apex_wiki/svdfeature3. Libsvm和Liblinearlibsvm项目主页:http://www.csie.ntu.edu.tw/~cjlin/libsvm转载 2013-04-12 01:55:58 · 2169 阅读 · 0 评论 -
2013.04 08 智能推荐系统开发中的十个关键注意点
文章发表在netflix的技术博客上。作者是Xavier Amatriain和Justin Basilico利用清明的时间学习了一下,翻译备份,好货分享之。有不当的地方请评论中指出。多谢各位。前一章节我们重点强调了数据和算法在创建一个有非常好的用户体验的推荐系统。我们同时也提到提升用户与推荐系统交互的参与程度和热情的重要性。今天我们将展现给大家的是另一个非常重要的问题:怎么转载 2013-04-09 22:56:25 · 1074 阅读 · 0 评论 -
智能推荐系统开发中的十个关键注意点
作者:陈运文 博士,盛大智能推荐团队负责人亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技 术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息。为了实现这个梦想,过去十余年间,无数顶尖技术专家和工程师投身于推荐算法和技术的 研究与应用中,很多优秀的方转载 2013-04-08 21:56:07 · 941 阅读 · 0 评论 -
以图找图:相似图片搜索的原理
以图找图:相似图片搜索的原理时间:2013-04-02 01:04来源:阮一峰 作者:阮一峰 围观: 2868 次 你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。 一个对话框会出现。 你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女转载 2013-04-05 15:59:24 · 1336 阅读 · 0 评论 -
KDD2012参会小结
KDD的全称为ACM SIGKDD conference on Knowledge Discovery and Data Mining,今年的会期是8.12-8.16,在北京的国家会议中心。这是KDD第一次在亚洲举办,机会难得;加之我们组幸运的被邀请在KDDCUP的workshop上做一个报告,我们5位同学就欢快地从上海赶赴北京学习、腐败了。今年参会人数有1000多人,虽然不能转载 2013-04-04 01:03:08 · 934 阅读 · 0 评论 -
怎样量化评价搜索引擎的结果质量
搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevance)上。相关性的定义包括狭义和广义两方面,狭义的解释是:检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为为用户查询的综合满意度。直观的来看,从用户进转载 2013-03-19 19:32:34 · 1216 阅读 · 0 评论 -
Understanding the Bias-Variance Tradeoff
Understanding the Bias-Variance TradeoffJune 2012When we discuss prediction models, prediction errors can be decomposed into two main subcomponents we care about: error due to "bias" and err转载 2013-03-19 13:17:25 · 1258 阅读 · 0 评论 -
邓亚峰 Deep Learning 简介
最近deep learning大火,不仅仅受到学术界的关注,更在工业界受到大家的追捧。在很多重要的评测中,DL都取得了state of the art的效果。尤其是在语音识别方面,DL使得错误率下降了大约30%,取得了显著的进步,现在如果哪个做语音识别的公司没用DL,都不好意思打招呼了,相信后续这种状况还会延伸到图像和自然语言处理等其它领域。 deep learning本身算是machin转载 2013-04-01 13:50:08 · 1652 阅读 · 0 评论 -
使用Weka进行数据挖掘
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境(Waikato转载 2013-03-30 22:20:00 · 1021 阅读 · 0 评论 -
百度日志分析方法概述
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日转载 2013-03-30 22:17:37 · 1295 阅读 · 0 评论 -
在线广告的exploration/exploitation trade-off(勘探和开采问题)
刚刚在看ICML 2010的一篇关于搜索广告CTR预估的文章:Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine上周跟中科院的同学吃饭时,他们说在KDDCUP竞赛时,这篇文章的算法效果非常好。当时转载 2013-04-12 01:50:15 · 1821 阅读 · 0 评论 -
各大推荐引擎资料汇总
最近在做一个推荐的任务,头绪繁多,回头看看同行的工作,希望能有些帮助。零零碎碎看过好多资料,有些已经忘记了,会慢慢补全。也欢迎大家留言补充,尤其是关于豆瓣、新浪微博等的系统经验。之前在推荐系统大会上听过土豆、淘宝和点评的报告,收获不少。欢迎同行加我微博进行交流。视频类Netflix:很多方法的融合,可以参考我翻译的blog。Hulu:主要转载 2013-04-12 01:54:26 · 1073 阅读 · 0 评论 -
深度学习(Deep Learning)综述
Comments from Xinwei: 本文是从deeplearning网站上翻译的另一篇综述,主要简述了一些论文、算法已经工具箱。 深度学习是ML研究中的一个新的领域,它被引入到ML中使ML更接近于其原始的目标:AI。查看a brief introduction to Machine Learning for AI 和 an introduction to Deep Le转载 2013-05-16 15:08:12 · 1213 阅读 · 0 评论 -
决策树模型组合之随机森林与GBDT
前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时, 单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能转载 2013-05-20 22:10:26 · 1068 阅读 · 0 评论 -
斯坦福大学自然语言处理第四课“语言模型(Language Modeling)”
一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇转载 2013-05-20 22:04:10 · 2766 阅读 · 0 评论