机器学习算法
张雨石
程序猿,科幻迷,力求做一枚文青
展开
-
微博背后的那些算法
微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作:原创、转发、回复、阅读、关注、@等。其中,前四个是针对短博文,最后的关注和@则针对的是用户之间的关系,关注某个人就意味着你成为他的粉丝,而他成为你的好友;@某个人意味着你想要他看到你的微博信息。微博被人们认为是“自媒体”,即普通大众分享与本身相关的“新闻”的途径。最近,有些人使用自己在自媒体上的影响力而盈利的报道屡见不鲜。那微博上个人影响力是怎样计算的呢?微博上还有哪些算法作为看不见的手在管理着我们?我们的每一个行为怎样影响着算法原创 2014-01-27 15:20:09 · 24979 阅读 · 11 评论 -
二值神经网络(Binary Neural Network,BNN)
在我刚刚过去的研究生毕设中,我在ImageNet数据集上验证了图像特征二值化后仍然具有很强的表达能力,可以在检索中达到较好的效果。而Bengio大神的这篇文章,则不止于将特征二值化,而是要将权重和每层的激活值统统二值化。相比于非二值化的网络,将大量的数学运算变成了位操作。这样就节省了大量的空间而前向传播的时间,使神经网络的应用门槛变得更低。原创 2016-03-18 20:00:37 · 59825 阅读 · 17 评论 -
Inception in CNN
之前也写过GoogLeNet的笔记,但那个时候对Inception有些似懂非懂,这周重新看了一遍,觉得有了新的体会,特地重新写一篇博客与它再续前缘。原创 2016-04-03 23:57:28 · 56456 阅读 · 13 评论 -
街拍衣饰搜索
问题定义如下,就是街拍图片到商店图片的品牌精准搜索。原创 2016-03-13 10:23:52 · 2818 阅读 · 0 评论 -
Learning to Rank简介
机器学习有三大问题,分类、回归和排序。分类和回归之前了解了很多的算法,但排序还没有深入的了解过。本文对排序的诸多算法做一个阐述。原创 2016-03-13 18:17:28 · 4885 阅读 · 1 评论 -
决策森林和卷积神经网络二道归一
现在有很多人认为神经网络可以和人脑中的机制相似。我却认为,或许人脑中有的机制与此类似,但一定是一个复杂的系统。但我们其实可以完全不必模仿人脑的构造,因为人工建立的智能一定比人脑在各个方面都要强上百倍,也正如学飞行不能看雄鹰振翅而是空气动力学一样。因为我的如此认识,所以当我看到有一片论文是将决策森林和卷积神经网络糅合到一起的时候,我感觉到`something is more close.`原创 2016-03-27 19:04:35 · 14129 阅读 · 2 评论 -
parameter_server架构
现在的机器学习系统,但凡是大一点的公司,恐怕都在用分布式了。而在分布式机器学习领域,最出名的恐怕就是少帅的PS框架了。 读了一些原始论文,我试着来理解一下。原创 2016-04-25 14:06:37 · 21664 阅读 · 2 评论 -
ReLU上的花样
ReLU的有效性体现在两个方面:克服梯度消失的问题加快训练速度而这两个方面是相辅相成的,因为克服了梯度消失问题,所以训练才会快。原创 2016-05-15 22:22:09 · 13235 阅读 · 0 评论 -
DeepFace--Facebook的人脸识别
连续看了DeepID和FaceNet后,看了更早期的一篇论文,即FB的DeepFace。这篇论文早于DeepID和FaceNet,但其所使用的方法在后面的论文中都有体现,可谓是早期的奠基之作。因而特写博文以记之。原创 2015-07-06 16:49:36 · 42613 阅读 · 9 评论 -
FaceNet--Google的人脸识别
引入随着深度学习的出现,CV领域突破很多,甚至掀起了一股CV界的创业浪潮,当次风口浪尖之时,Google岂能缺席。贡献出FaceNet再刷LFW上人脸验证的效果新高FaceNet与其他的深度学习方法在人脸上的应用不同,并没有用传统的softmax的方式去进行分类学习,然后抽取其中某一层作为特征,而是直接进行端对端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类。原创 2015-06-29 21:39:22 · 83295 阅读 · 15 评论 -
Adam:大规模分布式机器学习框架
Adam是微软研究院的深度学习项目,该项目仍然是应用卷积神经网络进行图像分类,效果提高了很多,但从我读论文的角度看,adam更偏向于分布式框架的实现,而非理论的创新,自Alex和Hinton在2012年发出[2]以后,其实卷积神经网络的核心并没有大改,然而将卷积神经网络从学术界引领到工业界,我觉得adam的贡献匪浅。原创 2015-06-29 01:04:39 · 16482 阅读 · 1 评论 -
基于Map-Reduce的相似度计算
基于Map-Reduce的相似度计算不久前(6.29),参加了ChinaHadoop的夏季沙龙,听了人人的大牛讲了基于Map-Reduce的相似度计算的优化,感觉对Map-Reduce编程模型的理解又进一步加深了,在这里把该算法总结成博文,以期能够更加透彻的理解该算法。相似度的计算在文本的分类、聚类、推荐系统、反作弊中应用广泛。基于Map-Reduce的相似度计算顺应大数据的潮流,其算法思想值得借鉴。原创 2013-07-10 10:59:11 · 10212 阅读 · 4 评论 -
搜索引擎算法之初探——PageRank、DocRank
从文档集合中找出出现搜索词的文档,进一步可能是通过搜索词在文档中出现的次数来对文档排名,这种搜索就是信息检索(Information retrieval)。有很多现有的库可以很方便的就让我们做出来这些工作,其中最有名的当属Lucene了。当然,现在的搜索已不单单是索引了,而在于链接分析、用户点击分析和自然语言处理等方面,这些技术能大大的增强搜索的性能。基本搜索构建一个搜索引擎的基本步骤原创 2013-01-28 15:57:49 · 5589 阅读 · 0 评论 -
DeepID人脸识别算法之三代
DeepID人脸识别算法之三代DeepID,目前最强人脸识别算法,已经三代。如今,深度学习方兴未艾,大数据风起云涌,各个领域都在处于使用深度学习进行强突破的阶段,人脸识别也不例外,香港中文大学的团队使用卷积神经网络学习特征,将之用于人脸识别的子领域人脸验证方面,取得了不错的效果。虽然是今年7月份才出的成果,但连发三箭,皆中靶心,使用的卷积神经网络已经改进了三次,破竹之势节节高。故而在这里将DeepID神经网络的三代进化史总结一下,以期相互讨论,互有增益。原创 2014-12-23 00:09:48 · 97265 阅读 · 43 评论 -
局部敏感哈希-Locality Sensitive Hashing
局部敏感哈希在检索技术中,索引一直需要研究的核心技术。当下,索引技术主要分为三类:基于树的索引技术(tree-based index)、基于哈希的索引技术(hashing-based index)与基于词的倒排索引(visual words based inverted index)[1]。本文主要对哈希索引技术进行介绍。原创 2015-03-19 13:46:45 · 14853 阅读 · 5 评论 -
机器学习算法概览
机器学习(Machine Learning, ML)是什么,作为一个MLer,经常难以向大家解释何为ML。但是,如果还有人问机器学习是什么,我想可以用本文来回答。翻译 2015-03-21 00:10:55 · 8255 阅读 · 2 评论 -
卷积神经网络
自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益。正文之前,先说几点自己对于CNN的感触。先明确一点就是,Deep Learning是全部深度学习算法的总称,CNN是深度学习算法在图像处理领域的一个应用。第一点,在学习Deep learning和CNN之前,总以为它们是很了不得的知识,总以为它们原创 2014-11-29 16:20:41 · 313210 阅读 · 76 评论 -
局部敏感哈希之KSH
原始的哈希方法和基于p-stable分布的哈希方法都是随机产生的,其效果受随机函数的限制并会产生动荡。本文中描述一种有监督学习的哈希方法,根据不同的数据学习到不同的哈希方法,相对于随机产生的方法具有较大的优势。本文介绍的方法的原始论文在[1],名为KSH,即Kernel-Based Supervised Hashing。原创 2015-03-30 10:06:39 · 6426 阅读 · 1 评论 -
DeepID算法实践
目前人脸验证算法可以说是DeepID最强,本文使用theano对DeepID进行实现。当然DeepID最强指的是DeepID和联合贝叶斯两个算法,本文中只实现了DeepID神经网络,并用它作为特征提取器来应用在其他任务上。本文所用到的代码工程在github上可以找到,链接为https://github.com/stdcoutzyx/DeepID_FaceClassify原创 2015-05-08 00:43:14 · 27253 阅读 · 57 评论 -
看得“深”、看得“清” —— 深度学习在图像超清化的应用
日复一日的人像临摹练习使得画家能够仅凭几个关键特征画出完整的人脸。同样地,我们希望机器能够通过低清图像有限的图像信息,推断出图像对应的高清细节,这就需要算法能够像画家一样“理解”图像内容。至此,传统的规则算法不堪重负,新兴的深度学习照耀着图像超清化的星空。原创 2017-04-21 13:34:01 · 21593 阅读 · 4 评论