2016年06月_风雪夜归子

原创 spark机器学习笔记：（五）用Spark Python构建分类模型（下）

2016-06-30 17:52:24 9911 2

原创 spark机器学习笔记：（四）用Spark Python构建分类模型（上）

本文,我将简单介绍分类模型的基础知识以及如何在各种应用中使用这些模型。分类通常是指将事物分成不同的类别。在分类模型中,我们期望根据一组特征来判断类别,这些特征代表了物体、事件或上下文相关的属性(变量)。最简单的分类形式是分两个类别,即“二分类”。一般讲其中一类标记为正类(记为1),另外一类标记为负类(记为-1或者0)。分类是监督学习的一种形式,我们用带有类标

2016-06-29 18:16:02 18867 9

原创 spark机器学习笔记：（三）用Spark Python构建推荐系统

上一篇博文详细介绍了如何使用Spark Python进行数据处理和特征提取，本系列从本文开始，将陆续介绍用Spark Python对机器学习模型进行详细的探讨。推荐引擎或许是最为大众所知的一种机器学习模型。人们或许并不知道它确切是什么,但在使用Amazon、Netflix、YouTube、Twitter、LinkedIn和Facebook这些流行站点的时候,可能已经接触过了。推荐是这些网站

2016-06-28 18:10:04 25782 13

原创 spark机器学习笔记：（二）用Spark Python进行数据处理和特征提取

2016-06-27 17:11:49 38858 7

原创 spark机器学习笔记：（一）Spark Python初探

2016-06-27 14:20:25 36077 10

原创数据预处理系列：（十七）用随机梯度下降处理回归

2016-06-27 12:03:11 6660

原创数据预处理系列：（十六）直接定义一个正态随机过程对象

2016-06-27 12:01:52 6024

原创数据预处理系列：（十五）用正态随机过程处理回归

2016-06-27 11:59:14 6680

原创数据预处理系列：（十四）用管线命令连接多个转换方法

2016-06-27 11:57:11 6156

原创数据预处理系列：（十三）用字典学习分解法分类

2016-06-27 11:54:40 7389

原创数据预处理系列：（十二）用截断奇异值分解降维

用截断奇异值分解降维截断奇异值分解（Truncated singular value decomposition，TSVD）是一种矩阵因式分解（factorization）技术，将矩阵M分解成U，ΣΣ和V。它与PCA很像，只是SVD分解是在数据矩阵上进行，而PCA是在数据的协方差矩阵上进行。通常，SVD用于发现矩阵的主成份。Getting

2016-06-27 11:29:38 20470

原创数据预处理系列：（十一）用核PCA实现非线性降维

用核PCA实现非线性降维由于大多数统计方法最开始都是线性的，所以，想解决非线性问题，就需要做一些调整。PCA也是一种线性变换。本主题将首先介绍它的非线性形式，然后介绍如何降维。Getting ready如果数据都是线性的，生活得多容易啊，可惜现实并非如此。核主成分分析（Kernel PCA）可以处理非线性问题。

2016-06-27 11:26:16 9745

原创数据预处理系列：（十）用因子分析降维

用因子分析降维因子分析（factor analysis）是另一种降维方法。与PCA不同的是，因子分析有假设而PCA没有假设。因子分析的基本假设是有一些隐藏特征与数据集的特征相关。这个主题将浓缩（boil down）样本数据集的显性特征，尝试像理解因变量一样地理解自变量之间的隐藏特征。Getting ready

2016-06-27 11:16:11 23953

原创数据预处理系列：（九）用主成分分析（PCA）降维

用主成分分析降维现在是时候升一级了！主成分分析（Principal component analysis，PCA）是本书介绍的第一个高级技术。到目前为止都是些简单的统计学知识，而PCA将统计学和线性代数组合起来实现降维，堪称简单模型的杀手锏。Getting readyPCA是scikit-learn的一个分解模

2016-06-27 11:13:21 13551

原创数据预处理系列：（八）用管线命令处理多个步骤

用管线命令处理多个步骤管线命令不经常用，但是很有用。它们可以把多个步骤组合成一个对象执行。这样可以更方便灵活地调节和控制整个模型的配置，而不只是一个一个步骤调节。Getting ready这是我们把多个数据处理步骤组合成一个对象的第一部分。在scikit-learn里称为pipeline。这里我们首先通过计算处

2016-06-27 10:30:22 7048

原创数据预处理系列：（七）处理缺失值

处理缺失值实践中数值计算不可或缺，好在有很多方法可用，这个主题将介绍其中一些。不过，这些方法未必能解决你的问题。scikit-learn有一些常见的计算方法，它可以对现有数据进行变换填补NA值。但是，如果数据集中的缺失值是有意而为之的——例如，服务器响应时间超过100ms——那么更合适的方法是用其他包解决，像处理贝叶斯问题的PyMC，处理风险模型的lifelines

2016-06-27 10:27:56 14873

原创数据预处理系列：（六）标签特征二元化

标签特征二元化在这个主题中，我们将用另一种方式来演示分类变量。有些时候只有一两个分类特征是重要的，这时就要避免多余的维度，如果有多个分类变量就有可能会出现这些多余的维度。Getting ready处理分类变量还有另一种方法，不需要通过OneHotEncoder，我们可以用LabelBin

2016-06-25 22:59:42 13079

原创数据预处理系列：（五）分类变量处理

分类变量处理分类变量是经常遇到的问题。一方面它们提供了信息；另一方面，它们可能是文本形式——纯文字或者与文字相关的整数——就像表格的索引一样。因此，我们在建模的时候往往需要将这些变量量化，但是仅仅用简单的id或者原来的形式是不行的。因为我们也需要避免在上一节里通过阈值创建二元特征遇到的问题。如果我们把数据看成是连续的，那么也必须解释成连续的。

2016-06-25 22:56:53 25169

原创数据预处理系列：（四）用阈值创建二元特征

用阈值创建二元特征在前一个主题，我们介绍了数据转换成标准正态分布的方法。现在，我们看看另一种完全不同的转换方法。当不需要呈标准化分布的数据时，我们可以不处理它们直接使用；但是，如果有足够理由，直接使用也许是聪明的做法。通常，尤其是处理连续数据时，可以通过建立二元特征来分割数据。Getting ready

2016-06-25 22:55:56 6745

原创数据预处理系列：（三）把数据调整为标准正态分布

把数据调整为标准正态分布经常需要将数据标准化调整（scaling）为标准正态分布（standard normal）。标准正态分布算得上是统计学中最重要的分布了。如果你学过统计，Z值表（z-scores）应该不陌生。实际上，Z值表的作用就是把服从某种分布的特征转换成标准正态分布的Z值。Getting ready

2016-06-25 22:53:09 44539 9

原创数据预处理系列：（二）创建试验样本数据

创建试验样本数据希望你在学习本系列时用自己的数据来试验，如果实在没有数据，下面就介绍如何用scikit-learn创建一些试验用的样本数据（toy data）。Getting ready与前面获取内置数据集，获取新数据集的过程类似，创建样本数据集，用make_数据集名称函数。这些数据集都

2016-06-25 22:49:19 9407

原创数据预处理系列：（一）从外部源获取样本数据

从外部源获取样本数据如果条件允许，学本系列内容时尽量用你熟悉的数据集；方便起见，我们用scikit-learn的内置数据库。这些内置数据库可用于测试不同的建模技术，如回归和分类。而且这些内置数据库都是非常著名的数据库。这对不同领域的学术论文的作者们来说是很用的，他们可以用这些内置数据库将他们的模型与其他模型进行比较。推荐使用IPython来运行文中的指令

2016-06-25 22:44:48 10884

原创机器学习系列：（十）从感知器到人工神经网络

从感知器到人工神经网络在第8章，感知器里，我们介绍了感知器，一种线性模型用来做二元分类。感知器不是一个通用函数近似器；它的决策边界必须是一个超平面。上一章里面介绍的支持向量机，用核函数修正了感知器的不足，将特征向量有效的映射到更高维的空间使得样本成为线性可分的数据集。本章，我们将介绍人工神经网络（artificial neural networks，ANN），一

2016-06-24 21:23:55 19105

原创机器学习系列：（九）从感知器到支持向量机

从感知器到支持向量机上一章我们介绍了感知器。作为一种二元分类器，感知器不能有效的解决线性不可分问题。其实在第二章，线性回归里面已经遇到过类似的问题，当时需要解决一个解释变量与响应变量存在非线性关系的问题。为了提高模型的准确率，我们引入了一种特殊的多元线性回归模型，多项式回归。通过对特征进行合理的组合，我们建立了高维特征空间的解释变量与响应变量的线性关系模型。

2016-06-24 21:15:53 10251

原创机器学习系列：（八）感知器

感知器前面，我们介绍了广义线性模型，用联接方程描述解释变量、超参数和响应变量的线性关系。这一章，我们将介绍另一种线性模型，称为感知器（perceptron）。感知器是一种研究单个训练样本的二元分类器，训练较大的数据集很有用。而且，感知器和它的不足激发了我们后面两种将介绍的模型。感知器是Frank Rosenblatt在1957

2016-06-24 20:39:02 15629 3

原创机器学习系列：（七）用PCA降维

用PCA降维本章我们将介绍一种降维方法，PCA（Principal Component Analysis，主成分分析）。降维致力于解决三类问题。第一，降维可以缓解维度灾难问题。第二，降维可以在压缩数据的同时让信息损失最小化。第三，理解几百个维度的数据结构很困难，两三个维度的数据通过可视化更容易理解。下面，我们用PCA将一个高维数据降成二维，方便可视化，之后，我们

2016-06-24 19:54:36 26158 5

原创机器学习系列：（六）K-Means聚类

K-Means聚类前面几章我们介绍了监督学习，包括从带标签的数据中学习的回归和分类算法。本章，我们讨论无监督学习算法，聚类（clustering）。聚类是用于找出不带标签数据的相似性的算法。我们将介绍K-Means聚类思想，解决一个图像压缩问题，然后对算法的效果进行评估。最后，我们把聚类和分类算法组合起来，解决一个半监督学习问题。在第一章，机

2016-06-24 19:07:02 29187 3

原创机器学习系列：（五）决策树——非线性回归与分类

决策树——非线性回归与分类前面几章，我们介绍的模型都是广义线性模型，基本方法都是通过联接方程构建解释变量与若干响应变量的关联关系。我们用多元线性回归解决回归问题，逻辑回归解决分类问题。本章我们要讨论一种简单的非线性模型，用来解决回归与分类问题，称为决策树（decision tree）。首先，我们将用决策树做一个广告屏蔽器，可以将网页中的广告内容屏蔽掉。之后，我们

2016-06-24 15:09:14 17543 1

原创机器学习系列：（四）从线性回归到逻辑回归

从线性回归到逻辑回归在第2章，线性回归里面，我们介绍了一元线性回归，多元线性回归和多项式回归。这些模型都是广义线性回归模型的具体形式，广义线性回归是一种灵活的框架，比普通线性回归要求更少的假设。这一章，我们讨论广义线性回归模型的具体形式的另一种形式，逻辑回归（logistic regression）。和前面讨论的模型不同，逻辑回归是用来做分类任务的。分类任务

2016-06-23 15:45:15 17473 1

原创机器学习系列：（三）特征提取与处理

特征提取与处理上一章案例中的解释变量都是数值，比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章，我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化，更是机器学习的基础，影响到本书的所有章节。分类变量特征提取许多机器学习问题都有分类的、标记的变量，不是连续的。例如

2016-06-23 15:31:11 71856 3

原创机器学习系列：（二）线性回归

线性回归本章介绍用线性模型处理回归问题。从简单问题开始，先处理一个响应变量和一个解释变量的一元问题。然后，我们介绍多元线性回归问题（multiple linear regression），线性约束由多个解释变量构成。紧接着，我们介绍多项式回归分析（polynomial regression问题），一种具有非线性关系的多元线性回归问题。最后，我们介绍如果训练模型获取目标函

2016-06-23 14:17:14 24762 3

原创机器学习系列：（一）机器学习基础

本章我们简要介绍下机器学习（Machine Learning）的基本概念。主要介绍机器学习算法的应用，监督学习和无监督学习（supervised-unsupervised learning）的应用场景，训练和测试数据的用法，学习效果评估方式。最后，对scikit-learn进行一些简单的介绍。自计算机问世以来，计算机可以学习和模仿人类智慧的观点，可谓“引无数英雄竞折腰”

2016-06-01 20:37:45 15904 4

风雪夜归子