2016年05月_Wang_AI

转载 Integrate Apache Spark with latest IPython Notebook (Jupyter 4.x)

Posted on December 24, 2015 | Topics:python, spark , ipython , jupyter , spark-redshiftAs you may already know, Apache Spark is possibly the most popular engine right now for large-scale data pr

2016-05-30 10:51:21 1811

原创 4.机器学习实战之朴素贝叶斯

返回目录上一篇：决策树1.简单理论介绍1.1 贝叶斯定理了解贝叶斯定理之前，需要先了解下条件概率。P(A|B)表示在事件B已经发生的条件下事件A发生的概率： P(A|B)=P(AB)P(B)daf afdfd假如我们已经知道了P(A|B)，但是现在我们想要求P(B|A)，也就是在事件A发生的条件下事件B发生的概率，这时贝叶斯...

2016-05-15 21:30:59 7185 1

原创 3.机器学习实战之决策树

返回目录上一篇：k-近邻算法1.简单理论介绍决策树的类型有很多，有CART、ID3和C4.5等，其中CART是基于基尼不纯度(Gini)的，这里不做详解，而ID3和C4.5都是基于信息熵的，它们两个得到的结果都是一样的，本次定义主要针对ID3算法。下面我们介绍信息熵的定义。1.1 熵设D为用类别对训练集进行的划分，则D的熵（entropy）表示为：其中...

2016-05-15 13:31:11 10166

原创 0.机器学习实战（Peter Harrington 著）笔记目录

从文本中构建文档向量In [1]:# create Data# postingList 表示切分后的文档集合 classVec表示类别标签集合def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

2016-05-13 20:41:16 1596

转载分类器性能评估之Lift和Gain(3)

书接前文。跟ROC类似，Lift（提升）和Gain（增益）也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来，也有跟一个baseline model的比较，然后也是很容易画出来，很容易解释。以下先修知识，包括所需的数据集：分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵分类模型的性能评估——

2016-05-06 20:52:47 8520

转载分类器性能评估之ROC和AUC(2)

ROC上回我们提到，ROC曲线就是不同的阈值下，以下两个变量的组合（如果对Sensitivity和Specificity两个术语没有概念，不妨返回，《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》，强烈建议读者对着看）：Sensitivity（覆盖率，True Positive Rate）1-Specificity (Specificity,

2016-05-06 20:48:02 1535

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样

2016-05-06 20:45:05 4042

转载 Pandas——ix vs loc vs iloc区别

Different Choices for Indexing1. loc——通过行标签索引行数据1.1loc[1]表示索引的是第1行（index 是整数）import pandas as pddata = [[1,2,3],[4,5,6]]index = [0,1]columns=['a','b','c']df = pd.DataFrame(data=data, in...

2016-05-06 18:12:19 80403 9

转载使用sklearn优雅地进行数据挖掘

1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们最后留下了一些疑问：特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练方法fit同名（不光同名

2016-05-06 15:16:49 3114

转载使用sklearn做特征工程

1 特征工程是什么？　　有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：　　特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，降维等。...

2016-05-06 15:10:17 11029

原创 Chapter1—Basic of Machine Learning

1 监督学习（supervised learn）与无监督学习（unsupervised learn）机器学习系统通常被看作是有无人类监督学习两种方式。监督学习问题是，从成对的已经标记好的输入和输出经验数据作为一个输入进行学习，用来预测输出结果，是从有正确答案的例子中学习。而无监督学习是程序不能从已经标记好的数据中学习。它需要在数据中发现一些规律。假如我们获取了人的身高和体重数据，非监督学习的例

2016-05-03 18:19:42 6659

转载应用机器学习建议

这篇文章是以Bremen大学机器学习课程的教程为基础的。本文总结了使用机器学习解决新问题的一些建议。包括：可视化数据的方法选择一个适合当前问题的机器学习方法鉴别和解决过拟合和欠拟合问题处理大数据库问题（注意：不是非常小的）不同损失函数的利弊本文以Andrew Ng的《应用机器学习的建议 | Advice for applying Machine Learning》为基础。这个笔

2016-05-03 17:24:35 1241

转载 sklearn数据预处理

本文小编通过用sklearn的preprocessing模块来介绍常见的数据预处理方法。1. 标准化 (Standardization) 变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。>>> sklearn.preprocessing.scale(X) 一般会把train和

2016-05-03 16:30:30 1636

转载理解TF和TF-IDF

概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作

2016-05-03 16:21:47 2994

转载 Matplotlib Tutorial(译)

这个教程基于可以从scipy lecture note得到的 Mike Müller的教程。源代码可从这里获得。图像在figures文件夹内，所有的脚本位于scripts文件夹。所有的代码和材料以Creative Commons Attribution 3.0 United States License (CC-by)发布。特别感谢Bill Wing和Christo

2016-05-03 10:58:22 1568

转载 Python图表绘制：matplotlib绘图库入门

Python图表绘制：matplotlib绘图库入门matplotlib 是Python最著名的绘图库，它提供了一整套和matlab相似的命令API，十分适合交互式地行制图。而且也可以方便地将它作为绘图控件，嵌入GUI应用程序中。它的文档相当完备，并且Gallery页面中有上百幅缩略图，打开之后都有源程序。因此如果你需要绘制某种类型的图，只需要在这个页面中浏览/复制/粘贴一下，基本

2016-05-03 08:31:35 797

Oner.wv的专栏