2018年01月_imJaron

转载测试代码的执行时间：%time和%timeit

对于规模更大、运行时间更长的数据分析应用程序，你可能会希望测试一下各个部分或函数调用或语句的执行时间。你可能会希望了解某个复杂计算过程中到底是哪些函数占用的时间最多。幸运的是，在开发和测试代码的过程中，IPython能够让你轻松得到这些信息。使用内置的time模块及其time.clock和time.time函数手工测试代码执行时间是一件令人烦闷的事情，因为你必须编写许多一模一样的了无生趣的公式化代

2018-01-30 21:48:53 444

转载机器学习之计算工具库Numpy

标题Numpyndarrayndarray数据类型修改ndarray的形状ndarray索引和切片ndarray的转置与轴变换通用函数ndarray与标量的运算NumpyNumPy是用Python进行科学计算的基本软件包。它包含以下内容：一个强大的

2018-01-30 17:15:24 338

转载机器学习中的数据预处理（sklearn preprocessing）

Standardization即标准化，尽量将数据转化为均值为零，方差为一的数据，形如标准正态分布（高斯分布）。实际中我们会忽略数据的分布情况，仅仅是通过改变均值来集中数据，然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化，均值去除和按方差比例缩放（Standardization, or mean re

2018-01-28 16:22:17 251

转载数据归一化

多时候，如果不对数据进行归一化，会导致梯度下降复杂或是xgboost中的损失函数只能选择线性，导致模型效果不佳。下面我结合各类我看到的资料总结一下几种方式的归一化，并有python的实现。从经验上说，归一化是让不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。如下有个形象的图解：如果不归一化，各维特征的跨度差距很大，目标函数就会是“扁”的：

2018-01-27 23:27:58 6249

原创数据的标准化归一化思考

虽然理解对数据的标准化归一化的好处，但是今天突然想到一个小白的问题，那就是：这样处理后对最终的参数w没有影响吗？有影响的话，那模型还有效吗？经过一番思考与讨论，发现还是之前的理解不够深入，才会有这样的问题。首先，要明确的一点是我们最终需要的是什么？ - 是通过对训练集的数据找规律，即可以应用到未来的数据的规律，从而做出预测。所以，核心是规律，我们可以对原始数据做无数种处理，那么我们也可以找

2018-01-27 22:34:23 311

转载极大似然估计详解

极大似然估计以前多次接触过极大似然估计，但一直都不太明白到底什么原理，最近在看贝叶斯分类，对极大似然估计有了新的认识，总结如下：贝叶斯决策首先来看贝叶斯分类，我们都知道经典的贝叶斯公式：其中：p(w)：为先验概率，表示每种类别分布的概率；：类条件概率，表示在某种类别前提下，某事发生的概率

2018-01-23 14:16:18 561

转载先验概率与后验概率、贝叶斯区别与联系

先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个（就是假设而已，别当真）：车辆太多和交通事故。堵车的概率就是先验概率。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故，那么我们想算一下堵车的概率，这个就叫做条件概率。也就是P(堵车|交通事故)。这是有因求果。如果我们已经出了门，然后遇

2018-01-23 14:09:10 597

转载模型选择、参数选择

当我们使用正则化的线性回归方法预测房价时，发现得到的模型应用于新的数据上时有很大误差，这时，我们可以选择一些解决方案，例如：上图中的这六种解决方案都有相应的条件，如图中蓝色字体所示。【一、回归模型选择】我们引入一类数据集，叫做cross validation set，即交叉验证数据集。将所有数据按6：2：2 分为training set , cross validat

2018-01-23 06:42:26 2076

转载范数正则化L0、L1、L2-岭回归&Lasso回归（稀疏与特征工程）

一、正则化背景监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”，也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。问题背景：参数太多，会导致我们的模型复杂度上升，容易过拟合。

2018-01-22 22:07:49 578

转载多重共线性的解决方法之——岭回归与LASSO

多元线性回归模型的最小二乘估计结果为如果存在较强的共线性，即中各列向量之间存在较强的相关性，会导致的从而引起对角线上的值很大并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大，对参数的估计会不准确。因此，是否可以删除掉一些相关性较强的变量呢？如果p个变量之间具有较强的相关性，那么又应当删除哪几个是比较好的呢？本文介

2018-01-22 14:46:19 2324

原创无偏估计

比如我要对某个学校一个年级的上千个学生估计他们的平均水平（真实值，上帝才知道的数字），那么我决定抽样来计算。我抽出一个10个人的样本，可以计算出一个均值。那么如果我下次重新抽样，抽到的10个人可能就不一样了，那么这个从样本里面计算出来的均值可能就变了，对不对？因为这个均值是随着我抽样变化的，而我抽出哪10个人来计算这个数字是随机的，那么这个均值也是随机的。但是这个均值也会服从一个规律（一个

2018-01-22 14:05:25 1308

转载正态分布的"68-95-99.7法则"

2018-01-22 13:12:28 8886

转载方差、标准差、均方差、均方误差区别总结

一、百度百科上方差是这样定义的：（variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。看这么一段文字可能有些绕，那就先从公式入手，对于一组随机变量或者统计数据，其期望值

2018-01-22 12:53:07 1752

转载均方误差(MSE)

http://blog.csdn.net/Eric2016_Lv/article/details/52819926?locationNum=3&fps=1均方误差单独扽概念是很简单的，这里只做介绍，更深一步的内容会在后面列出来。数理统计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量“平均误差”的一种较方便的方法，MSE可以评价数据的

2018-01-22 12:36:09 85014 6

转载 Python解释执行原理

这里的解释执行是相对于编译执行而言的。我们都知道，使用C/C++之类的编译性语言编写的程序，是需要从源文件转换成计算机使用的机器语言，经过链接器链接之后形成了二进制的可执行文件。运行该程序的时候，就可以把二进制程序从硬盘载入到内存中并运行。但是对于Python而言，python源码不需要编译成二进制代码，它可以直接从源代码运行程序。当我们运行python文件程序的时候，pyth

2018-01-15 06:37:16 529

转载贝叶斯法则,先验概率,后验概率,最大后验概率

1.贝叶斯法则机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。2.先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被

2018-01-14 18:29:03 4226

转载浅谈数据结构-二叉树

二叉树是树的特殊一种，具有如下特点：1、每个结点最多有两颗子树，结点的度最大为2。2、左子树和右子树是有顺序的，次序不能颠倒。3、即使某结点只有一个子树，也要区分左右子树。一、特殊的二叉树及特点 1、斜树所有的结点都只有左子树（左斜树），或者只有右子树（右斜树）。这就是斜树，应用较少2、满二叉树所有的分支结点都存在左子树和右子树，并且所有的叶

2018-01-09 19:52:49 240

转载链表插入与删除操作中的头、尾指针

[题目]：有一个单链表，它的元素全部是整数。head和tail分别是指向该链表第一个元素（即头元素）和最后一个元素（即尾元素）的全局性指针。请实现调用接口如下所示的两个C语言函数： int Delete (element *elem);

2018-01-06 21:44:42 2471

转载在链表中使用头结点与尾指针

http://blog.csdn.net/jmy5945hh/article/details/75748571 头结点首先，不要被以下三个词组弄混了：链表头：数据内容为第一个元素的结点。头指针：指向头结点元素的指针。头结点：数据内容无效，其指针是头指针。一句话描述为：头指针是指向头结点的指针，头结点是指向链表头的结点。

2018-01-06 21:21:59 18809 2

imJaron的博客