MachineLearning
码上的生活
Don't you want to take a leap of faith? Or become an old man, filled with regret ?
展开
-
[Exercise 4] Regularization
在这个练习中,会实现加入正则的线性回归和逻辑回归。数据:ex5Data.zip,数据拟合的过程中很容易出现的问题就是过拟合(over fitting),所以需要正则化来进行模型的选择。实验基础Regularized linear regression五阶多项式 最小化的损失函数: 回想一下我们前面的Normal equations: Regularized logistic reg原创 2015-07-20 10:23:52 · 767 阅读 · 0 评论 -
[MachineLearningInAction] - KNN
在有标签的数据中,输入没有标签的数据后,通过计算数据特征与样本数据进行比较,算法提取样本集中特征最相似的分类标签。一般取前K个最相似的数,这就是k-近邻算法。从K近邻算法、距离度量谈到KD树、SIFT+BBF算法实验基础python/numpy中会用到的函数: shape() shape是numpy函数库中的方法,用于查看矩阵或者数组的维素 >>>shape(arr原创 2015-08-26 21:51:13 · 1126 阅读 · 0 评论 -
[机器学习实战]-决策树
有一个20个问题的游戏,参与有游戏的一方在脑海里想某个事物,其他参与者向他提问,只允许20个问题,答案只能回答对或错。问问题的人通过推断分解,逐步缩小范围。决策树的原理将和这个游戏类似。决策树处理数据时,先计算数据的不一致性,然后寻找最优方案划分数据集。直到数据集所有数据属于同一个分类。使用matplotlib注解功能,将存储树转化为容易理解的图形。 信息增益和决策树基础 熵的定义:H(p)=−原创 2015-08-28 15:20:27 · 524 阅读 · 0 评论 -
[机器学习实战]--朴素贝叶斯过滤垃圾邮件
我们将充分利用python的文本处理能力将文档切分成词向量,然后利用词向量对文档进行分类。还将构造分类器观察其在真实的垃圾邮件数据集中的过滤效果。基于贝叶斯决策理论的分类方法假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。 我们现在用 p1(x,y) 表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用 p2(x,y) 表示数据点(x,y)属于类别2(图中用三角形表原创 2015-08-29 16:52:30 · 2678 阅读 · 0 评论 -
绪论(0)--机器学习与模式识别 [PRML]
模式识别领域关注的是利用计算机算法自动发现数据中的规律,以及使用这些规律采取将数据分类等行动。手写数字识别的例子,因为手写体变化多端。这个问题可以使用人工编写的规则解决,但实际往往效果很差。使用机器学习的方法可以得到好得多的结果。全书贯穿3个重要工具:概率论、决策论、信息论。都将在后续内容一一介绍。机器学习的一些基本概念一个由 N 个数字 {x 1 , … , x N } 组成的大的集合被叫做训练原创 2015-08-29 16:20:37 · 962 阅读 · 0 评论 -
[机器学习实战] -Logistic回归
根据现有数据对分类边界线建立回归模型,以此进行分类。在练习中会介绍有关梯度上升算法和随机梯度上升算法,最后应用Logistic回归,预测病马的死亡率。参考练习[Exercise 3] Logistic Regression and Newton’s Method。实验基础sigmod随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradien原创 2015-09-01 22:48:05 · 803 阅读 · 0 评论 -
从头开始实现一个神经网络
在这篇文章中,我们会从头开始实现一个简单的3层神经网络。我们不会去推导所需的数学公式,但是我会试着给一个直观的解释我们在做什么。我也会指出具体的阅读资源。 在这里我假设您熟悉基本的微积分和机器学习的概念,例如:你知道什么是分类和正规化。理想情况下你也知道一点关于像梯度下降优化技术是如何工作的。但即使你不熟悉任何上面的这篇文章仍有可能是有趣的。但是为什么从头实现神经网络呢?即使你打算在将来使用像PyB翻译 2015-09-06 17:07:26 · 4661 阅读 · 1 评论 -
使用逻辑回归进行MNIST分类(Classifying MNIST using Logistic Regressing)
本节假定读者属性了下面的Theano概念:共享变量(shared variable), 基本数学算子(basic arithmetic ops), Theano的进阶(T.grad), floatX(默认为float64)。假如你想要在你的GPU上跑你的代码,你也需要看GPU。本节的所有代码可以在这里下载。在这一节,我们将展示Theano如何实现最基本的分类器:逻辑回归分类器。我们以模型的快速入门开原创 2015-10-22 23:35:53 · 2627 阅读 · 0 评论 -
13 Machine Learning Data Set Collections(13个机器学习数据集)
Here are 13 resources on Machine Learning data sets.Landsat on AWSLandsat 8 data is available for anyone to use via Amazon S3. All Landsat 8 scenes from 2015 are available along with a sel转载 2015-10-26 09:11:09 · 3213 阅读 · 0 评论 -
奇异值分解(We Recommend a Singular Value Decomposition)
原文作者:David Austin原文链接: http://www.ams.org/samplings/feature-column/fcarc-svd译者:richardsun(孙振龙)在这篇文章中,我们以几何的视角去观察矩阵奇异值分解的过程,并且列举一些奇异值分解的应用。介绍矩阵奇异值分解是本科数学课程中的必学部分,但往往被大家忽略。这个分解除了很直观,更重要的是非常具有实转载 2015-07-16 10:50:34 · 639 阅读 · 0 评论 -
[Exercise 3] Logistic Regression and Newton's Method
这个练习将通过牛顿方法来实现逻辑回归分类。Dataex4Data.zip这里给出的训练样本的特征为80个学生的两门功课的分数.样本值为对应的同学是否允许被上大学,如果是允许的话则用’1’表示,否则不允许就用’0’表示。学生成绩由Test1的成绩 和Test2 的成绩组成。我们关注的是 θ\theta怎样获得,多少次迭代后能收敛预测学生成绩是[20 80] 是否被允许可视化我们的初始数据原创 2015-07-15 11:30:04 · 1107 阅读 · 0 评论 -
[Exercise 2] 多元线性回归
上一节我们实现了二元线性回归。在这个练习中,会使用梯度下降和normal equations实现多元线性回归.同时也会检查损失函数,收敛梯度和学习率的关系。参考Exercise: Multivariate Linear Regression我们要预测的是1650,且有3个bedrooms的房子的价格。Data先看看数据集,训练集是Porland,Oregon地区的价格作为y(i)y^{(i)},输入原创 2015-07-14 10:05:21 · 535 阅读 · 0 评论 -
机器学习(1)--绪论
什么是机器学习?关于机器学习的定义有很多,机器学习重在学习,而所谓学习—通过经验自我提高。我们缺乏的是知识,作为补偿我们有数据,数据就是经验,我们需要从数据中学习知识。 机器学习使用实例数据或过去的经验训练计算机,以优化某种行能标准。机器学习在构建数学模型时利用统计学理论,因为其任务就是从样本中推理。机器学习的应用实例学习关联性购物篮分析 发现关联规则分类分类是监督学习的一个核心问题。在监督学习中原创 2015-03-04 10:40:48 · 1258 阅读 · 0 评论 -
机器学习在现实中会遇到的算法总结
在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。机器学习领域有很多算法,然后每种算法又有很多延伸,所以对于一个特定问题,如何确定一个正确的算法是很困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。 机器学习学习方式根据如何处理经验、环境或者任何我们称之为输入的数据转载 2015-03-05 09:30:26 · 799 阅读 · 0 评论 -
贝叶斯决策定理
讨论在不确定情况下决策的概率理论框架。在分类中,贝叶斯规则用来计算类的概率。会讨论推广到怎样做出合理的决策将期望风险最小化。引言数据来自一个不完全清楚的过程。将该过程作为随机过程建模表明我们缺乏知识,并用概率理论来分析它(也许该过程确定,只是我们没有获取关于它的完全知识的途径)。 我们不能获取的那些额外的数据称为不可观测的变量(unobservable variable),对应的称为可观测的变量原创 2015-04-21 11:56:38 · 836 阅读 · 0 评论 -
多层感知机(Multilayer Perceptron)
在本节中,假设你已经了解了使用逻辑回归进行MNIST分类。同时本节的所有代码可以在这里下载.下一个我们将在Theano中使用的结构是单隐层的多层感知机(MLP)。MLP可以被看作一个逻辑回归分类器。这个中间层被称为隐藏层。一个单隐层对于MLP成为通用近似器是有效的。然而在后面,我们将讲述使用多个隐藏层的好处,例如深度学习的前提。这个课程介绍了MLP,反向误差传导,如何训练MLPs。模型一个多层感知机转载 2015-06-08 20:20:15 · 14058 阅读 · 0 评论 -
常用资源整理
ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的信息量非常多,有software, reading lis转载 2015-06-10 16:19:45 · 755 阅读 · 0 评论 -
python数据挖掘领域工具包
原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线转载 2015-06-10 00:59:32 · 688 阅读 · 0 评论 -
[Exercise 1] Linear Regression
数据描述这次练习是多元线性回归中最简单的二元线性回归,参考exericse1给出的题目,50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄小数形式呈现。Y为这50个小朋友对应的身高,小数形式表示的。线性回归回想一下线性回归模型:hθ(x)=θTx=∑i=1nθixih_\theta(x) = \theta^Tx=\sum_{i=1}^n \theta_ix_i 梯度更新规则:原创 2015-07-10 15:41:23 · 752 阅读 · 0 评论 -
[UFLDL-1] 监督学习和优化
线性回归问题简介 函数最小化逻辑回归线性回归问题简介 http://ufldl.stanford.edu/tutorial/supervised/LinearRegression/作为一个回顾,我们将学习怎样实现线性回归。主要的目的是学习目标函数,计算它们的梯度并且在参数集上优化。这些基本的工具之后将成为更加复杂算法的基础。读者希望了解更多细节可以参考讲义上面的监督学习。在线性回归中我们的目原创 2016-04-15 23:25:04 · 605 阅读 · 0 评论