排序:
默认
按更新时间
按访问量

sklearn文档 — 1.10. 决策树

决策树(Decision Trees ,DTs)是一组用于分类和回归的无参监督学习。它们的目标是创建一个模型,然后这个模型通过从数据特征学习出一套简单的决策规则后,来预测出目标值。 以下方的实例为例子,决策树从数据特征中近似地获得一条由一组 如果...就...否则... 这样的决策规则组成的正弦...

2017-08-03 15:23:38

阅读数:614

评论数:0

sklearn文档 — 1.9. 朴素贝叶斯

这个朴素贝叶斯方法是一组基于贝叶斯理论的监督学习算法,其对每个特征对都定义了一个"简单"假设。对给定的类变量 y 和独立的特征向量 x1 至 xn ,贝叶斯理论的关系如下所示: 使用朴素的独立假设后: 对全体 i 而言,其等式又能简化为: ...

2017-08-03 15:21:40

阅读数:284

评论数:0

sklearn文档 — 1.8. 交叉分解

交叉分解模型包含了两个主要的算法族:偏最小二乘法(PLS)和规范相关分析(CCA)。 这些算法族擅长于在两个多变量数据集之间寻找出他们的线性关系。其fit方法里的X和Y参数都是二维向量。 交叉分解算法寻找两个矩阵(X和Y)的基本关系。他们这种隐含的可变方法会尝试对这两个空间的协方差...

2017-08-03 15:18:18

阅读数:201

评论数:0

sklearn文档 — 1.7. 高斯过程

高斯过程(GP)是一种被设计来解决 回归 和 概率分类 的通用监督学习方法。 高斯过程有以下的优点: 可以预测插值(至少对常规核而言)预测是概率的(高斯分布的)结果,因此可以根据置信区间的计算以决定是否要在一些感兴趣的区域重新进行拟合(在线拟合,自适应拟合)。可以指定不同的 核 。默认是提供...

2017-08-03 09:28:18

阅读数:1589

评论数:0

sklearn文档 — 1.6. 最近邻

sklearn.neighbors 提供了一些在无监督和有监督学习中基于近邻的学习方法。无监督近邻是许多其他学习方法的基石,特别是在流学习和光谱聚类方面。有监督的基于近邻的学习有两个方面:对带有离散标签的数据进行分类 ,对带有连续标签的数据计算回归。 最近邻的原则上是先找出距离新点(预测点)...

2017-08-02 23:10:40

阅读数:567

评论数:0

sklearn文档 — 1.5. 随机梯度下降

随机梯度下降(SGD) 是一个既有效又简单的方法去用于在诸如(线性)支持向量机 和 Logistic回归中,"凸"代价函数下的线性分类器的辨别学习。尽管 SGD 已经在机器学习社区存在了很长一段时间了,但是在最近的大规模学习的浪潮下它还是得到了很多人的关注。 SGD 已...

2017-08-02 23:09:13

阅读数:991

评论数:0

sklearn文档 — 1.4. 支持向量机

支持向量机(SVMs)是一组用于分类,回归和 异常值检测的监督学习方法。 SVMs的优点有: 在高维空间下有效。在样本维度远远高于样本数量时依旧有效。在决策函数中使用训练样本的子集(被称为支持向量),同时其也是内存有效的。能够为不同的决策函数指定不同的核函数。(在sklearn中)已...

2017-08-02 23:07:34

阅读数:410

评论数:0

sklearn文档 — 1.3. 核岭回归

核岭回归(KRR) [M2012]是使用了核技巧与 岭回归(使用L2范数正则化的线性最小二乘法)结合而成。也因此它是学习由相应的核和数据的空间中的线性函数。对于非线性核,这对应原始空间中的非线性函数。 KernelRidge 模型被证明为是支持向量回归(SVR)的。然而,可以使用不同的损...

2017-08-02 23:06:03

阅读数:692

评论数:0

sklearn文档 — 1.2. 线性与二次判别分析法

线性判别分析法(discriminant_analysis.LinearDiscriminantAnalysis) 和二次判别分析法(discriminant_analysis.QuadraticDiscriminantAnalysis) 是两种经典的分类器。正如他们的名字所示,分别为线性...

2017-08-02 23:05:07

阅读数:740

评论数:0

sklearn中文文档——1.1. 普通线性模型

下面是一组用在回归中的方法,其预期的结果为各输入变量的线性组合。在数学的概念里,如果 ý 表示我们预测出的结果: 线性回归的预测结果 在这一节中,我们定义向量 w = (w1, ..., wp) 为 系数(coef_) ,而 w0 为 截距(intercept_) 。如果要使...

2017-08-02 23:02:22

阅读数:934

评论数:0

机器学习精简教程之十——用scikit-learn做聚类分析

本文转自:http://www.shareditor.com/blogshow?blogId=61 线性回归和逻辑回归都是监督学习方法,聚类分析是非监督学习的一种,可以从一批数据集中探索信息,比如在社交网络数据中可以识别社区,在一堆菜谱中识别出菜系。本节介绍K-means聚类算法 。 ...

2017-08-02 22:42:24

阅读数:504

评论数:0

机器学习精简教程之九——用scikit-learn的网格搜索快速找到最优模型参数

本文转自:http://www.shareditor.com/blogshow/?blogId=60 任何一种机器学习模型都附带很多参数,不同场景对应不同的最佳参数,手工尝试各种参数无疑浪费很多时间,scikit-learn帮我们实现了自动化,那就是网格搜索 。 网格搜索 ...

2017-08-02 15:05:01

阅读数:810

评论数:0

机器学习精简教程之八——二元分类效果的评估方法

本文转自:http://www.shareditor.com/blogshow/?blogId=59 效果评估是模型选择和算法设计的重要步骤,知道评估优劣才能选择最佳的模型和算法,本节介绍一些有关评估方法的定义,凡是在统计或大数据领域都用得到  真阳性 true positives, ...

2017-08-02 14:42:40

阅读数:432

评论数:0

机器学习精简教程之七——用scikit-learn做特征提取

本文转自:http://www.shareditor.com/blogshow/?blogId=58 现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取 (特征数字化) 分类变量的特征提取 ...

2017-08-02 11:36:06

阅读数:196

评论数:0

机器学习精简教程之六——用随机梯度下降法(SGD)做线性拟合

本文转自:http://www.shareditor.com/blogshow/?blogId=57 scikit-learn的线性回归模型都是通过最小化成本函数来计算参数的,通过矩阵乘法和求逆运算来计算参数。当变量很多的时候计算量会非常大,因此我们改用梯度下降法,批量梯度下降法每次迭代...

2017-08-01 23:10:27

阅读数:663

评论数:0

机器学习精简教程之五——用scikit-learn求解多项式回归问题

本文转自:http://www.shareditor.com/blogshow/?blogId=56 多元真实情况未必是线性的,有时需要增加指数项,也就是多项式回归,现实世界的曲线关系都是通过增加多项式实现的,本节介绍用scikit-learn解决多项式回归问题  住房价格样本...

2017-08-01 22:44:27

阅读数:202

评论数:0

机器学习精简教程之四——用matplotlib绘制精美的图表

本文转自:http://www.shareditor.com/blogshow/?blogId=55 绘制一元函数图像y=ax+b import matplotlib.pyplot as plt import numpy as np plt.figure() # 实例化作图变...

2017-08-01 21:55:20

阅读数:628

评论数:1

机器学习精简教程之三——用scikit-learn求解多元线性回归问题

本文转自 http://www.shareditor.com/blogshow/?blogId=54 一般情况下,一个因变量是和多个自变量有关的,比如一个商品的价格和原料价格、加工方法、上市时间、品牌价值等有关,也就是多元线性,本节介绍如何用scikit-learn解决多元线性回归问题  ...

2017-07-31 20:46:04

阅读数:216

评论数:0

机器学习精简教程之二——用scikit-learn求解一元线性回归问题

本文转自 http://www.shareditor.com/blogshow/?blogId=53 一元线性回归是最简单的一种模型,但应用广泛,比如简单地预测商品价格、成本评估等,都可以用一元线性模型,本节主要讲解scikit-learn一元线性回归的使用以及作图说明  一元...

2017-07-31 20:27:24

阅读数:294

评论数:0

机器学习精简教程之一——线性代数知识

本文转自:http://www.shareditor.com/blogshow/?blogId=1       数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念,数学不只是上学时用来考试的,也是工作中必不可少的基础知识,实际上有很多有趣的...

2017-07-31 20:00:17

阅读数:533

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭