MachineLearning_码上的生活的博客-CSDN博客

MachineLearning

关注

关注数：文章数：20 文章阅读量：39388 文章收藏量：46

作者: 码上的生活

Don't you want to take a leap of faith? Or become an old man, filled with regret ?

展开

[Exercise 4] Regularization

在这个练习中，会实现加入正则的线性回归和逻辑回归。数据：ex5Data.zip,数据拟合的过程中很容易出现的问题就是过拟合(over fitting),所以需要正则化来进行模型的选择。实验基础Regularized linear regression五阶多项式最小化的损失函数：回想一下我们前面的Normal equations： Regularized logistic reg

原创 2015-07-20 10:23:52 · 767 阅读 · 0 评论
[MachineLearningInAction] - KNN

在有标签的数据中，输入没有标签的数据后，通过计算数据特征与样本数据进行比较，算法提取样本集中特征最相似的分类标签。一般取前K个最相似的数，这就是k-近邻算法。从K近邻算法、距离度量谈到KD树、SIFT+BBF算法实验基础python/numpy中会用到的函数： shape() shape是numpy函数库中的方法，用于查看矩阵或者数组的维素 >>>shape(arr

原创 2015-08-26 21:51:13 · 1126 阅读 · 0 评论
[机器学习实战]-决策树

有一个20个问题的游戏，参与有游戏的一方在脑海里想某个事物，其他参与者向他提问，只允许20个问题，答案只能回答对或错。问问题的人通过推断分解，逐步缩小范围。决策树的原理将和这个游戏类似。决策树处理数据时，先计算数据的不一致性，然后寻找最优方案划分数据集。直到数据集所有数据属于同一个分类。使用matplotlib注解功能，将存储树转化为容易理解的图形。信息增益和决策树基础熵的定义：H(p)=−

原创 2015-08-28 15:20:27 · 524 阅读 · 0 评论
[机器学习实战]--朴素贝叶斯过滤垃圾邮件

我们将充分利用python的文本处理能力将文档切分成词向量，然后利用词向量对文档进行分类。还将构造分类器观察其在真实的垃圾邮件数据集中的过滤效果。基于贝叶斯决策理论的分类方法假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。我们现在用 p1(x,y) 表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用 p2(x,y) 表示数据点(x,y)属于类别2(图中用三角形表

原创 2015-08-29 16:52:30 · 2678 阅读 · 0 评论
绪论(0)--机器学习与模式识别 [PRML]

模式识别领域关注的是利用计算机算法自动发现数据中的规律,以及使用这些规律采取将数据分类等行动。手写数字识别的例子，因为手写体变化多端。这个问题可以使用人工编写的规则解决，但实际往往效果很差。使用机器学习的方法可以得到好得多的结果。全书贯穿3个重要工具：概率论、决策论、信息论。都将在后续内容一一介绍。机器学习的一些基本概念一个由 N 个数字 {x 1 , … , x N } 组成的大的集合被叫做训练

原创 2015-08-29 16:20:37 · 962 阅读 · 0 评论
[机器学习实战] -Logistic回归

根据现有数据对分类边界线建立回归模型，以此进行分类。在练习中会介绍有关梯度上升算法和随机梯度上升算法，最后应用Logistic回归，预测病马的死亡率。参考练习[Exercise 3] Logistic Regression and Newton’s Method。实验基础sigmod随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradien

原创 2015-09-01 22:48:05 · 803 阅读 · 0 评论
从头开始实现一个神经网络

在这篇文章中，我们会从头开始实现一个简单的3层神经网络。我们不会去推导所需的数学公式，但是我会试着给一个直观的解释我们在做什么。我也会指出具体的阅读资源。在这里我假设您熟悉基本的微积分和机器学习的概念,例如:你知道什么是分类和正规化。理想情况下你也知道一点关于像梯度下降优化技术是如何工作的。但即使你不熟悉任何上面的这篇文章仍有可能是有趣的。但是为什么从头实现神经网络呢?即使你打算在将来使用像PyB

翻译 2015-09-06 17:07:26 · 4661 阅读 · 1 评论
使用逻辑回归进行MNIST分类（Classifying MNIST using Logistic Regressing）

本节假定读者属性了下面的Theano概念：共享变量（shared variable）, 基本数学算子（basic arithmetic ops）, Theano的进阶（T.grad）, floatX(默认为float64)。假如你想要在你的GPU上跑你的代码，你也需要看GPU。本节的所有代码可以在这里下载。在这一节，我们将展示Theano如何实现最基本的分类器：逻辑回归分类器。我们以模型的快速入门开

原创 2015-10-22 23:35:53 · 2627 阅读 · 0 评论
13 Machine Learning Data Set Collections(13个机器学习数据集)

Here are 13 resources on Machine Learning data sets.Landsat on AWSLandsat 8 data is available for anyone to use via Amazon S3. All Landsat 8 scenes from 2015 are available along with a sel

转载 2015-10-26 09:11:09 · 3213 阅读 · 0 评论
奇异值分解（We Recommend a Singular Value Decomposition）

原文作者：David Austin原文链接： http://www.ams.org/samplings/feature-column/fcarc-svd译者：richardsun(孙振龙)在这篇文章中，我们以几何的视角去观察矩阵奇异值分解的过程，并且列举一些奇异值分解的应用。介绍矩阵奇异值分解是本科数学课程中的必学部分，但往往被大家忽略。这个分解除了很直观，更重要的是非常具有实

转载 2015-07-16 10:50:34 · 639 阅读 · 0 评论
[Exercise 3] Logistic Regression and Newton's Method

这个练习将通过牛顿方法来实现逻辑回归分类。Dataex4Data.zip这里给出的训练样本的特征为80个学生的两门功课的分数.样本值为对应的同学是否允许被上大学，如果是允许的话则用’1’表示，否则不允许就用’0’表示。学生成绩由Test1的成绩和Test2 的成绩组成。我们关注的是 θ\theta怎样获得，多少次迭代后能收敛预测学生成绩是[20 80] 是否被允许可视化我们的初始数据

原创 2015-07-15 11:30:04 · 1107 阅读 · 0 评论
[Exercise 2] 多元线性回归

上一节我们实现了二元线性回归。在这个练习中，会使用梯度下降和normal equations实现多元线性回归.同时也会检查损失函数，收敛梯度和学习率的关系。参考Exercise: Multivariate Linear Regression我们要预测的是1650，且有3个bedrooms的房子的价格。Data先看看数据集，训练集是Porland,Oregon地区的价格作为y(i)y^{(i)},输入

原创 2015-07-14 10:05:21 · 535 阅读 · 0 评论
机器学习（1）--绪论

什么是机器学习？关于机器学习的定义有很多，机器学习重在学习，而所谓学习—通过经验自我提高。我们缺乏的是知识，作为补偿我们有数据，数据就是经验，我们需要从数据中学习知识。机器学习使用实例数据或过去的经验训练计算机，以优化某种行能标准。机器学习在构建数学模型时利用统计学理论，因为其任务就是从样本中推理。机器学习的应用实例学习关联性购物篮分析发现关联规则分类分类是监督学习的一个核心问题。在监督学习中

原创 2015-03-04 10:40:48 · 1258 阅读 · 0 评论
机器学习在现实中会遇到的算法总结

在理解了我们需要解决的机器学习问题之后，我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法，大致了解哪些方法可用，很有帮助。机器学习领域有很多算法，然后每种算法又有很多延伸，所以对于一个特定问题，如何确定一个正确的算法是很困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。机器学习学习方式根据如何处理经验、环境或者任何我们称之为输入的数据

转载 2015-03-05 09:30:26 · 799 阅读 · 0 评论
贝叶斯决策定理

讨论在不确定情况下决策的概率理论框架。在分类中，贝叶斯规则用来计算类的概率。会讨论推广到怎样做出合理的决策将期望风险最小化。引言数据来自一个不完全清楚的过程。将该过程作为随机过程建模表明我们缺乏知识，并用概率理论来分析它（也许该过程确定，只是我们没有获取关于它的完全知识的途径）。我们不能获取的那些额外的数据称为不可观测的变量（unobservable variable），对应的称为可观测的变量

原创 2015-04-21 11:56:38 · 836 阅读 · 0 评论
多层感知机（Multilayer Perceptron）

在本节中，假设你已经了解了使用逻辑回归进行MNIST分类。同时本节的所有代码可以在这里下载.下一个我们将在Theano中使用的结构是单隐层的多层感知机（MLP）。MLP可以被看作一个逻辑回归分类器。这个中间层被称为隐藏层。一个单隐层对于MLP成为通用近似器是有效的。然而在后面，我们将讲述使用多个隐藏层的好处，例如深度学习的前提。这个课程介绍了MLP，反向误差传导，如何训练MLPs。模型一个多层感知机

转载 2015-06-08 20:20:15 · 14058 阅读 · 0 评论
常用资源整理

ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：一ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：二Bengio团队的deep learning教程，用的theano库，主要是rbm系列，搞python的可以参考，很不错。deeplearning.net主页，里面包含的信息量非常多，有software, reading lis

转载 2015-06-10 16:19:45 · 755 阅读 · 0 评论
python数据挖掘领域工具包

原文：http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域，有两个重要的扩展模块：Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括：一个强大的N维数组对象Array；比较成熟的（广播）函数库；用于整合C/C++和Fortran代码的工具包；实用的线

转载 2015-06-10 00:59:32 · 688 阅读 · 0 评论
[Exercise 1] Linear Regression

数据描述这次练习是多元线性回归中最简单的二元线性回归，参考exericse1给出的题目，50个数据样本点，其中x为这50个小朋友到的年龄，年龄为2岁到8岁，年龄小数形式呈现。Y为这50个小朋友对应的身高，小数形式表示的。线性回归回想一下线性回归模型：hθ(x)=θTx=∑i=1nθixih_\theta(x) = \theta^Tx=\sum_{i=1}^n \theta_ix_i 梯度更新规则：

原创 2015-07-10 15:41:23 · 752 阅读 · 0 评论
[UFLDL-1] 监督学习和优化

线性回归问题简介　函数最小化逻辑回归线性回归问题简介　http://ufldl.stanford.edu/tutorial/supervised/LinearRegression/作为一个回顾，我们将学习怎样实现线性回归。主要的目的是学习目标函数，计算它们的梯度并且在参数集上优化。这些基本的工具之后将成为更加复杂算法的基础。读者希望了解更多细节可以参考讲义上面的监督学习。在线性回归中我们的目

原创 2016-04-15 23:25:04 · 605 阅读 · 0 评论

MachineLearning

作者: 码上的生活

[Exercise 4] Regularization

[MachineLearningInAction] - KNN

[机器学习实战]-决策树

[机器学习实战]--朴素贝叶斯过滤垃圾邮件

绪论(0)--机器学习与模式识别 [PRML]

[机器学习实战] -Logistic回归

从头开始实现一个神经网络

使用逻辑回归进行MNIST分类（Classifying MNIST using Logistic Regressing）

13 Machine Learning Data Set Collections(13个机器学习数据集)

奇异值分解（We Recommend a Singular Value Decomposition）

[Exercise 3] Logistic Regression and Newton's Method

[Exercise 2] 多元线性回归

机器学习（1）--绪论

机器学习在现实中会遇到的算法总结

贝叶斯决策定理

多层感知机（Multilayer Perceptron）

常用资源整理

python数据挖掘领域工具包

[Exercise 1] Linear Regression

[UFLDL-1] 监督学习和优化