2017年10月_光与热

转载 kkt

转自https://zhuanlan.zhihu.com/p/26514613

2017-10-31 14:07:10 329

转载利用scatter绘制散点图

最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python] view plain copy #导入必要的模块 import numpy as np import matplotlib.pyplot as p

2017-10-29 21:37:16 1557

原创 matplotlib绘制等直线

# 利用contour(),contourf()描绘等值线# contourf()带有填充效果def fig2(): y, x = np.ogrid[-2:2:200j, -3:3:300j] z = x * np.exp(-x ** 2 - y ** 2) extent = [np.min(x), np.max(x), np.min(y), np.max(y)]

2017-10-29 17:04:24 1608

原创 numpy.ravel()和numpy.flatten()区别

首先声明两者所要实现的功能是一致的（将多维数组降位一维），两者的区别在于返回拷贝（copy）还是返回视图（view），numpy.flatten()返回一份拷贝，对拷贝所做的修改不会影响（reflects）原始矩阵，而numpy.ravel()返回的是视图（view，也颇有几分C/C++引用reference的意味），会影响（reflects）原始矩阵。1. 两者的功能>>> x = np.arra

2017-10-29 09:38:04 546

原创 matplotlib之Artist对象

1. 利用Artist对象绘图 # 什么是Artist对象 # 1.简单的Artist对象是标准的绘图元件，例如Line2D，Rectangle，Text，AxesImage等 # 2.容器类型包含多个Artist对象使他们组织成一个整体例如Axis，Axes，Figure对象 # 利用Artist对象进行绘图的流程分为如下三步 # 1.创建Figure对象

2017-10-29 09:35:56 3791 1

原创 Numpy-ufunc函数

ufunc函数是能对数组的每个元素进行运算的函数，python内置的许多ufunc函数使用C语言编写的，所以运行速度很快2.2.0 ufunc与math方法性能对比 print('sin计算后的值没有没有保存在x中，指定out来指定保存计算结果位置') x = np.linspace(0, 2 * np.pi, 10) y = np.sin(x, out=x) prin

2017-10-23 20:43:29 1981

原创 Numpy-ndarray对象

NumPy中使用ndarry对象表示数组，它是整个库的核心，NumPy所有的函数都是围绕ndarray对象进行处理，ndarray可以高效的存储大量的数值元素，提高数组的运算速度，还能与各种扩展库进行数据交换1.1.1创建import numpy as npa = np.array([1, 2, 3, 4])b = np.array([5, 6, 7, 8])c = np.array([[1,

2017-10-23 13:58:33 1013

转载 3种交叉验证

交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。　　　　　那么什么时候才需要交叉验证呢？交叉验证用在数据不是很充足的时候。比如在我日常项目里

2017-10-23 10:26:55 5111

转载利用矩阵求解最小二乘法

转自http://www.cnblogs.com/pinard/p/5976811.html

2017-10-22 20:41:35 5559

转载过拟合与欠拟合数学原理

一、偏倚（bias）和方差(variance)在讨论线性回归时，我们用一次线性函数对训练样本进行拟合（如图1所示）；然而，我们可以通过二次多项式函数对训练样本进行拟合（如图2所示），函数对样本的拟合程序看上去更“好”；当我们利用五次多项式函数对样本进行拟合（如图3所示），函数通过了所有样本，成为了一次“完美”的拟合。图3建立的模型，在训练集中通过x可以很好的预测y，然而，我们却不能预期该模型能够很

2017-10-19 20:12:56 1011

转载 SVM 核的理解

特征空间的隐式映射：核函数咱们首先给出核函数的来头：在上文中，我们已经了解到了SVM处理线性可分的情况，而对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。此外，因为训练样例一般是不会独立出现的，它们总是以成对样例的内积形式出现，而用对偶形式表示学习器的优势在为在该表示中可调参数的个数不依赖输入属性

2017-10-18 21:41:39 1005

转载支持向量机

内容提要这篇博客的主要内容有： 1. 简述支持向量机（SVM）的一般记号 2. 介绍了函数间隔和几何间隔 3. 最大间隔分类器是什么 4. 为了得到最大间隔分类器解，而介绍了一些与拉格朗日有关的理论（拉格朗日乘数法，KKT条件，对偶性质） 5. 求解最大间隔分类器方法推导。其实推导出来的这个方法就是支持向量机。支持向量机(SVM)，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上

2017-10-18 10:13:08 506

转载超平面的定义

研究了半天，终于对“超平面”有了个初步了解。 n 维空间中的超平面由下面的方程确定: 其中，w 和 x 都是 n 维列向量，x 为平面上的点，w 为平面上的法向量，决定了超平面的方向，b 是一个实数，代表超平面到原点的距离。且

2017-10-18 08:26:49 7372 2

转载生成学习算法和朴素贝叶斯

内容提要这篇博客的主要讲生成学习算法，主要包括两个算法： - 高斯判别分析（Gaussian Discriminant Analysis） - 朴素贝叶斯（Naive Bayes）now let’s begin前言今天学习的生成学习算法依然属于监督式学习算法，我们需要输入训练集，训练参数，然后进行分类。比如我们输入动物的特征x(function () {的关系如下：其中p(x)。根据我们对这些特

2017-10-17 16:05:56 407

转载 softmax回归

http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92#.E4.B8.AD.E6.96.87.E8.AF.91.E8.80.85” title=”” />

2017-10-16 21:45:09 355

转载 sufficient statistic 充分统计量

sufficient statistic 充分统计量对于一个未知分布而言，充分统计量sufficient statistic，顾名思义，就是当知道这些量的时候，这个分布就可以确定了，所以这些量才有sufficient的意思，足够的意思。有了这些量，即便丢失掉样本的其他信息也对于估计未知的分布而言也是无关紧要了，所以那些量才能成为是sufficient的。维基上的解释最经典，没有任何其他来自同样样

2017-10-16 19:30:35 1798

转载 scikit-learn逻辑回归类库使用总结

之前在逻辑回归原理小结这篇文章中，对逻辑回归的原理做了小结。这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结。重点讲述调参中要注意的事项。1. 概述　　　　在scikit-learn中，与逻辑回归有关的主要是这3个类。LogisticRegression， LogisticRegressionCV 和logistic_regression_path。其中LogisticR

2017-10-16 18:10:10 570

转载牛顿法求最优值与Hessian矩阵

牛顿法主要有两方面的应用：1. 求方程的根；2. 求解最优化方法；一. 为什么要用牛顿法求方程的根？问题很多，牛顿法是什么？目前还没有讲清楚，没关系，先直观理解为牛顿法是一种迭代求解方法（Newton童鞋定义的方法）。假设 f(x) = 0 为待求解方程，利用传统方法求解，牛顿法求解方程的公式：f(x0+Δx) = f(x0) + f′(x

2017-10-16 16:42:39 3113

转载指数族分布和广义线性模型

本文将首先简单介绍指数族分布，然后介绍一下广义线性模型（generalized linear model, GLM), 最后解释了为什么逻辑回归（logistic regression, LR) 是广义线性模型的一种。指数族分布指数族分布 (The exponential family distribution),区别于指数分布（exponential distribution)。在概率统计中，若某

2017-10-16 16:22:44 490

转载机器学习正则化L0,L1,L2范数

转自http://blog.csdn.net/zouxy09/article/details/24971995

2017-10-16 12:10:35 321

转载逻辑回归原理

转自http://www.cnblogs.com/pinard/p/6029432.html名词解释1.最大似然估计最大似然估计：现在已经拿到了很多个样本（你的数据集中所有因变量），这些样本值已经实现，最大似然估计就是去找到那个（组）参数估计值，使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了，其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化，是个连乘积，只要取对数，

2017-10-16 12:04:55 291

转载梯度下降

转自http://www.cnblogs.com/pinard/p/5970503.html

2017-10-16 11:12:10 302

转载 numpy matrix矩阵操作

原文地址numpy模块中的矩阵对象为numpy.matrix，包括矩阵数据的处理，矩阵的计算，以及基本的统计功能，转置，可逆性等等，包括对复数的处理，均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵，其中data为ndarray对象或者字符形式；dtype:为data的type；copy:为bool类型。>>> a = np.matri

2017-10-11 11:35:46 1451

转载 spark性能调优之数据倾斜优化

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多

2017-10-05 18:40:57 564

转载 shuffle性能调优之HashShuffleManager和SortShuffleManager

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因

2017-10-05 18:29:22 1017

原创 spark shuffle详解

在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的逻辑。ShuffleShuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce p

2017-10-01 15:50:49 617

光与热的博客