会飞的蝸牛-CSDN博客

原创 Python处理json数据

Python在处理json数据中有四个重要的函数：dump，load；dumps，loads。序列化（dict 包装成 json文件）dump（转储）：将字典dic对象转化为 json文件 API说明：Serialize obj as a JSON formatted stream to fp (a.write()-supporting file-like object) 使用方法： jso

2016-11-25 21:01:19 2297

原创泊松分布和指数分布

一、先摆出泊松分布表达式：P(x=k;λ)=λkk!e−λP(x=k;\lambda) = \frac{\lambda^k}{k!}e^{-\lambda}泊松分布的意义：　　首先，泊松分布的描述对象是“离散随机变量”;　　泊松分布是描述特定时间或者空间中事件的分布情况。　　1.一本书里，印刷错误的字的个数：　　其中参数λ由二项分布的期望np决定，λ=np，表示该时间(空间)段内的事件发生的频率

2016-11-10 10:09:38 18602

翻译 Scikit Learn: 用python进行机器学习

Scikit Learn: 在python中机器学习翻译自：Scikit Learn:Machine Learning in Python作者: Fabian Pedregosa, Gael Varoquaux先决条件Numpy, ScipyIPythonmatplotlibscikit-learn目录载入示例数据一个改变数据集大小的示例：数码数

2016-11-07 16:40:49 846

转载关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标

2016-11-07 16:03:54 679

转载 Linux下目录/usr缩写及目录结构说明

在 linux 文件结构中，有一个很神奇的目录 —— /usr。讨论中，大部分观点认为：usr 是 unix system resources 的缩写；usr 是 user 的缩写；usr 是 unix software resources 的缩写。根据常识判断，是 user 缩写的可能性不大，因为和 /home 冲突了嘛。不过是 system reso

2016-10-08 13:53:44 11242 1

原创 Mac 下 python 环境问题

1、Mac系统自带的python环境在：Python 2.7.10： /System/Library/Frameworks/Python.framework/Versions/2.

2016-09-29 14:27:44 33910 7

翻译逻辑回归 vs 决策树 vs 支持向量机（II）

原文地址： Logistic Regression vs Decision Trees vs SVM: Part II在这篇文章，我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实第一篇文章已经给出了很好的回答，不过在这里再补充一些。下面将继续深入讨论这个主题。事实上，这三个算法在其设计之初就赋予了一定的内部特性，我们将其分析透彻的主要目的在于：当你面临商业问题时

2016-09-20 14:25:07 1260

翻译逻辑回归 vs 决策树 vs 支持向量机（I）

原文链接：http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/分类问题是我们在各个行业的商业业务中遇到的主要问题之一。在本文中，我们将从众多技术中挑选出三种主要技术展开讨论，逻辑回归（Logistic Regression）、决策树（Decision Trees）和支持向量机（Sup

2016-09-20 14:23:01 1497

转载特征选择（四）- 分散度

度量类别可分离性的量主要有：欧氏距离（正态分布，协方差相等，且为单位阵）是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。马氏（Mahalanobis）距离（正态分布，协方差相等）它用来描述两个具有相同的协方差矩阵C，不同的期望值和的类别之间的不相似性，具体表达式是：Mahalanobis距离

2016-09-20 14:18:48 1774

转载特征选择（三）- K-L变换

上一讲说到，各个特征（各个分量）对分类来说，其重要性当然是不同的。舍去不重要的分量，这就是降维。聚类变换认为：重要的分量就是能让变换后类内距离小的分量。类内距离小，意味着抱团抱得紧。但是，抱团抱得紧，真的就一定容易分类么？如图1所示，根据聚类变换的原则，我们要留下方差小的分量，把方差大（波动大）的分量丢掉，所以两个椭圆都要向y轴投影，这样悲剧

2016-09-20 14:16:35 913

转载特征选择（二）- 聚类变换

上一讲已经给出了类内距离的概念。针对这个概念，有人从完全不同的两个角度给出了方法。这就是聚类变换与K-L变换。本章介绍聚类变换。降维到底是在干什么？各个特征（各个分量）对分类来说，其重要性当然是不同的。舍去不重要的分量，这就是降维。关键问题是，什么叫不重要？这就是为什么会有两种不同的变换了。聚类变换认

2016-09-20 14:12:34 1417

转载特征选择（一）- 维数问题与类内距离

什么是特征选择？简单说，特征选择就是降维。特征选择的任务就是要从n维向量中选取m个特征，把原向量降维成为一个m维向量。但是降维必须保证类别的可分离性或者说分类器的性能下降不多。注意降维具有片面性，算法并不普适。常常会有失效发生。降维这件小事在图像处理中叫做图像压缩、特征提取。重在最优区分（可分离性）。在模式识别中

2016-09-20 14:04:24 3346

原创线性空间和线性变换基本概念

线性空间是线性代数最基本的概念之一，是一个抽象的概念，他是向量空间概念的推广。线性空间是二维、三维集合空间及 n 维向量空间的推广，它在理论上具有高度的概括性。线性空间是一个集合；线性空间的元素统称为“向量”，但它可以是通常的向量（有序数组），也可以是矩阵、多项式、函数等。线性空间对所定义的加法及数乘运算封闭，且满足八条规则中的任意一条；欧式空间的引入：　　线性空间中，向量之间的基本运算

2016-09-09 13:58:28 6405

转载机器学习实践中的 7 种常见错误

http://ml.posthaven.com/machine-learning-done-wronghttp://blog.jobbole.com/70684/Statistical modeling is a lot like engineering.In engineering, there are various ways to build a key-valu

2016-08-30 19:35:57 1102

原创关于线性回归和逻辑回归一些深入的思考

在学习完 Andrew Ng 教授的机器学习课程，和多方查阅大神的博客，本以为很简单的逻辑回归，在深思其细节的时候，很多容易让人不理解，甚至是疑惑的地方，这几天一直冥想其中的缘由。1、为什么是逻辑回归？都说

2016-08-28 15:07:08 23440 7

转载基于LDA的Topic Model变形与发展

基于LDA的Topic Model变形最近几年来，随着LDA的产生和发展，涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生：David M. BleiLDA的创始者，04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底；而其自己实现的LDA又可体现其不俗的编程能力。说人无用，有论文为证：J. Chang and D. B

2013-11-07 20:04:45 953

转载 SVM程序应用

为什么写这个指南我一直觉得 SVM 是个很有趣的东西，不过一直沒办法去听林智仁老師的 Data mining与SVM的课，后来看了一些Internet上的文件,后来听 kcwu 讲了一下libsvm 的用法后，就想整理一下，算是对于并不需要知道完整 SVM 理论的人提供使用libsvm 的入门。原始 libsvm 的README跟FAQ也是很好的文件，不过你可能要先对 svm 跟

2013-11-07 18:40:10 1564

原创 Machine Learning —— By Andrew Ng（机器学习听后自己做的笔记记录重点内容）

MachineLearning——byAndrew Ng , Stanford 第一讲：机器学习的动机与应用一、监督学习：1、回归问题: 房价预测2、分类问题：肿瘤为良性还是恶性二、无监督模型：三、区分声源的例子的思考（鸡尾酒会问题）：无监督算法发现数据内部的隐含结构，告诉我们不同类型的数据结构是什么样的。可为监督模型的数据

2013-11-01 20:45:42 2360

会飞的蜗牛专栏