Machine Learning
文章平均质量分 80
huiliao
热爱机器学习数据挖掘,对C/C++、Python、Matlab、PHP等感兴趣,关注科技互联网发展,希望结识更多同道中人。
展开
-
浅谈神经网络
神经网络简介 神经网络起源于上个世纪40年代,到现在已经有70年的历史。然而神经网络是最近几年才逐渐火起来的,因为以前相关的理论模型、训练方法和计算能力的条件都还不成熟,随着06年多伦多大学的hinton在science上发表了论文,用神经网络来把高维的原创 2013-12-25 22:40:37 · 7356 阅读 · 0 评论 -
自编码算法与稀疏性
前言看完神经网络及BP算法介绍后,这里做一个小实验,内容是来自斯坦福ULIDL教程,实现图像的压缩表示,模型是用神经网络模型,训练方法是BP后向传播算法。理论 在有监督学习中,训练样本是具有标签的,一般神经网络是有监督的学习方法。我们这里要讲的是自编码神经网络,这是一种无监督的学习方法,它是让输出值等于自身来实现的。 从图中可以看到,神经网络模型原创 2014-01-07 20:33:43 · 5444 阅读 · 20 评论 -
机器学习资料总结
机器学习是人工智能的核心技术之一,是训练计算机让计算机拥有人一样的学习能力的技术,训练需要数据,建立模型并利用算法就能让计算机学到数据的规律,可以用于未来的预测,这是多么强大的能力呀!就像是具有人的智慧一样,人工智能已经研究了近半个世纪,已经取得了很多的研究进展,现在生活中也经常用到这方面的产品,然而要让计算机完全具有人的智能目前还是比较难实现的,但是近些年来看到了一些曙光,利用深度学习的思想可以原创 2013-12-16 13:44:26 · 1604 阅读 · 1 评论 -
Softmax Regression
Softmax简介记得之前做过的logistic regression的练习是一个二类分类的问题,模型的假设函数是 这个函数判断给定的x在当前的模型theta下被预测为1的概率,显然预测为0的概率就是1减去预测为1的概率即可。LR实际上就是在训练数据中的空间中找一条超平面把正负样本分开,与感知机、SVM(支持向量机)也有点类似,但是损失函数是不一样的。LR的损失函数为原创 2014-02-18 21:08:43 · 5133 阅读 · 0 评论 -
Softmax Regression练习
在上篇博文(http://blog.csdn.net/freeliao/article/details/19424565)介绍了Softmax Regression的模型,现在来做下该模型在MNIST数据集上的识别练习(http://ufldl.stanford.edu/wiki/index.php/Exercise:Softmax_Regression)。MNIST数据集训练集由60000张28原创 2014-02-19 16:21:20 · 2147 阅读 · 0 评论 -
Self-Taught Learning
自编码器是一个三层的feed-forward神经网络模型,输入层经过隐含层的特征表示后再重构出跟输入层逼近的输出层,中间的隐含层是特征表示层,表示对输入层学习到的特征,这些特征可能更好地表示了数据,如果用学到的特征来训练数据分类或回归可能学习效果更好,于是就有了自我学习和无监督特征学习。 如果我们有很多的未标注数据,那就更好了,我们可以用自编码器学习特征表示,然后用学到的特征表示原创 2014-02-19 20:49:34 · 3654 阅读 · 2 评论 -
PCA与Whitening
一、PCA PCA即主成分分析(Principle Component Analysis),是统计机器学习、数据挖掘中对数据进行预处理的常用的一种方法。PCA的作用有2个,一个是数据降维,一个是数据的可视化。在实际应用数据中,样本的维数可能很大,远远大于样本数目,这样模型的复杂度会很大,学习到的模型会过拟合,而且训练速度也会比较慢,内存消耗比较大,但实际数据可能有些维度是线性相关的,可能也含有原创 2014-02-18 14:43:37 · 4490 阅读 · 0 评论 -
机器学习练习之朴素贝叶斯
练习来自http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex6/ex6.html 贝叶斯定理是概率论中非常重要的定理, 数学家Harold Jeffreys曾说"Bayes therom is the theory of prob原创 2014-01-23 16:38:11 · 2836 阅读 · 0 评论 -
机器学习练习之逻辑斯谛回归和牛顿方法
做完前面的线性回归练习后,这里继续练习逻辑斯蒂回归模型http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex4/ex4.html。 给出的数据是40个被大学接收的学生和40个被拒绝的学生的数据,输入是一个二维向量,表示2门科目成绩,输原创 2014-01-18 20:37:13 · 4231 阅读 · 10 评论 -
机器学习练习之k均值
k-means属于聚类分析的其中一种算法,聚类分析在机器学习、数据挖掘、模式识别、决策支持和图像分割中有广泛的应用。聚类是无监督的分类方法,所谓无监督就是没有给定训练数据的标签信息,所以聚类出来的结果的类别是未定义的,而分类的目标是把数据分到已知的类别中。聚类是在给定的数据集合中寻找数据子集合,每个子集合形成一个类簇,簇内间的相似性高,而簇间的相似性低。通俗地说,k-means算法就是“物以类聚人原创 2014-02-11 21:10:26 · 2189 阅读 · 1 评论 -
机器学习练习之多变量线性回归
在做完上一篇只有一个变量的线性回归后,这里继续完成多元线性回归模型的练习:http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex3/ex3.html。其实模型也是完成一样的,只不过输入是多维的特征而已,这里的数据是给定了房子大小和房间数相对应的房价,给原创 2014-01-17 22:45:23 · 1928 阅读 · 0 评论 -
机器学习练习之正则化
这个练习是来自http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex5/ex5.htmlRegularized linear regression 之前已经做过线性回归, 我们知道线性回归就是要找到 一条直线去拟合训练数据,模型的原创 2014-01-20 16:37:36 · 5234 阅读 · 0 评论 -
机器学习练习之线性回归
还是要打好基础吧,再做做机器学习最基本的技术和方法。这个练习是线性回归,很基本的数据预测方法,练习来自Andrew Ng的http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex2/ex2.html课程练习。 线性回归是有监督的学习方法,原创 2014-01-17 17:59:20 · 3026 阅读 · 0 评论 -
Convolution and Pooling
博文参考standford UFLDL教程working with large images小节。1、卷积特征提取之前做过的练习如sparse autoencoders、softmax regression、stacked autoencoders等处理的都是比较小的图像,如8x8啊,28x28啊,那时用的是全联通网络(full connected networks),就是隐含原创 2014-02-22 19:21:50 · 2385 阅读 · 0 评论 -
Linear Decoders
博文参考standford UFLDL网页教程线性解码器。1、线性解码器 前面说过的稀疏自编码器是一个三层的feed-forward神经网络结构,包含输入层、隐含层和输出层,隐含层和输出层采用的激活函数都是sigmoid函数,由于sigmoid函数的y值范围在[0,1],这就要求输入也要在这个范围内,MNIST数据是在这个范围内的,但是对于原创 2014-02-21 22:10:56 · 1761 阅读 · 0 评论 -
Stacked Autoencoders
博文内容参照网页Stacked Autoencoders,Stacked Autocoders是栈式的自编码器(参考网页Autoencoder and Sparsity和博文自编码与稀疏性),就是多层的自编码器,把前一层自编码器的输出(中间隐藏层)作为后一层自编码器的输入,其实就是把很多自编码器的编码部分叠加起来,然后再叠加对应自编码器的解码部分,这样就是一个含有多个隐含层的自编码器了。本博文原创 2014-02-21 17:08:24 · 7873 阅读 · 15 评论 -
Self-Taught Learning To Deep Networds
本博客是参照UFLDL教程的Self-Taught Learning to Deep Networds写的,也感谢tornadomeet,看了他的博客也对自己的理解帮助不小。一、从自我学习到深层网络 在自我学习(参考本博客Self-Taught Learning)中,我们用未标注的数据来学习自编码器,然后用学到的特征表示对已标注数据学习特征,然后用该特征作为softm原创 2014-02-20 16:20:13 · 1851 阅读 · 0 评论 -
word2vec浅析
本文是参考神经网络语言模型、word2vec相关论文和网上博客等资料整理的学习笔记,仅记录自己的学习历程,欢迎拍砖。 word2vec是2013年google提出的一种神经网络的语言模型,通过神经网络来学习词语的联合概率分布,同时可以得到词向量,有了词向量可以做很多NLP相关的事情。其实,早在2000年初就有学者在用神经网络来学习语言模型了,通过多年的改进、演变,得到我们现原创 2014-11-09 17:15:55 · 1810 阅读 · 0 评论