2018年11月_Takoony

12月 11月 10月 09月 08月 07月 06月

原创 svm中支持向量的理解

支持向量指的就是超平面距离最近的点；每个点都是一样向量；以前错误的理解向量一定是要两个点连接起来；此处就认为是将最近的两个点连起来就是支持向量；本质上来说，空间中的任何一点都是一个向量；只不过是以原来为起点；...

2018-11-30 14:39:18 3154 1

原创 gbdt子采样参数的理解

随机森林的子采样是有放回的抽样gbdt的子采样是无放回的抽样本人的错误理解：比如说原来的数据集是100个样本；gbdt的第一棵树是80个样本，第二棵树是剩下的20%，16个样本；依此类推；错误理解的根本是将抽取0.8样本集的作为一个整体，是否放回；所以才会觉得gbdt难以理解，每棵树都只剩下20%而正确的理解：是否放回主要针对的是每次抽取的一个样本；所以每棵树抽样的整体都是10...

2018-11-30 14:19:48 2746 4

原创 PCA与SVD的关系

SVD并不要求是方阵，而PCA必须要求是方阵，所以会PCA必须计算协方差矩阵，计算量大，且会出现数值溢出；

2018-11-30 09:06:37 862

在求解最优化问题中，拉格朗日乘子法（Lagrange Multiplier）和KKT（Karush Kuhn Tucker）条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法，在有不等约束时使用KKT条件。　　我们这里提到的最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化，即最大值问题可以转化成最小值问题)。提到KKT条件一般会附带的...

2018-11-29 14:27:18 404

原创如何将浮点型准确地转换成字符串

问题需求：统计最后一位小数出现的频率，数据比如：9.69，9.53，9.79，9.99，10.30；提取最后一个小数点直接使用str函数：显然不符合需要；最后一位小数总是会出现意想不到的问题解决策略，将需要的数变成百位整数因为这个问题困扰了很久；结果就完美的显现出来了； ...

2018-11-23 17:30:51 3775

原创对于偏度的理解

偏度公式如下：现在想解决如何从图像上解决为正为负的问题，如图所示：？个人理解：偏度中的偏是针对变量相对于中心点（期望值）距离的一种描述；如果厚尾的话，就说明有很多点距离中心点比较远，如上图中的负偏度如果不看厚尾，仅看靠近中心点的两侧，很显然右侧相对左侧，更多的点集中在中心点附近，换句话说，左侧更多的点集中在更远更偏的地方；通过三阶中心矩公式，左侧计算的偏离程度均为负值，大于右侧计...

2018-11-23 11:06:52 24537 4

原创到现在才理解高斯分布的均值与方差为什么是0和1

问题的来源，如图所示：为什么标准正态分布的期望值0，方差为1呢，如果是针对x变量，期望值为0可以理解，那么方差为1怎么理解呢，显然不可能为1，如果针对y变量，显然所有值都大于0，怎么会期望值会大于0呢：先看数学期望的定义：期望值本身是对所有值进行加权的过程，是针对一个变量存在的；每个值本身乘以这个值出现的概率；连续型的期望值，如图所示：从这里就可以看出，p(x)是概率...

2018-11-23 10:52:55 52757 6

原创归一化的本质原因

数据归一化（或者标准化，注意归一化和标准化不同）的原因　　要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如SVM）需要归一化。有些模型伸缩有与原来等价，如：LR则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情...

2018-11-21 10:43:03 1883 1

原创树模型为什么是不能进行梯度下降

对于树形结构为什么不需要归一化？机器学习 ML基础易答：数值缩放，不影响分裂点位置。因为第一步都是按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。对于线性模型，比如说LR，我有两个特征，一个是(0,1)的，一个是(0,10000)的，这样运用梯度下降时候，损失等高线是一个椭圆的形状，这样我想迭代到最优点，就需要很多次迭代，但是如果进行了归一化，那么等高线就是圆形的，...

2018-11-21 10:39:53 1286 2

转载形象的表述sigmoid的神经网络万能近似定理

我们了解神经网络以及它们从数据科学到计算机视觉的多个领域中的无数成就。众所周知，它们在解决有关泛化性方面的复杂任务中表现良好。从数学上讲，他们非常擅长近似任何的复杂函数。让我们形象化地理解这种近似概念，而不是前向和后向传播方法中的最小化预测误差。假设你了解前向和后向传播的一点基础，其旨在借助梯度和网络中的错误传播来近似函数。让我们通过另一种视觉解释来理解神经网络的近似能力。其中涉及基础数学和图形分...

2018-11-17 11:04:27 5600

原创线性回归竟然还有不明白的地方

向量表达的线性回归，如何表示偏置项或者说截距项？向量模式：普通模式：

2018-11-15 10:34:00 462

原创 Logistic回归的自己推导

这里的导数有问题，需要汇总在所有样本计算得到的导数，如下所示：为什么不像最小二乘法那样计算出恒等式呢？通过对比思维可以发现，唯一不同的是lr回归相对线性回归多了一层非线性映射，即图中的h(x)为sigmoid函数；不存在Normal Equation; 该函数是凸优化的...

2018-11-15 10:01:24 293

转载 logistic回归--好文

1、logistic回归的应用场景Logistic回归是一种用于解决二分类问题的机器学习方法，是一种判别模型：表现为直接对条件概率P(y|x)建模，而不关心背后的数据分布P(x,y)用于估计某种事物的可能性。比如某用户购买某商品的可能性、某病人患有某种疾病的可能性、以及某广告被用户点击的可能性等。注意：这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的...

2018-11-15 09:57:43 423

原创 svm常用核函数及选择核函数的方法

SVM核函数的选择对于其性能的表现有至关重要的作用，尤其是针对那些线性不可分的数据，因此核函数的选择在SVM算法中就显得至关重要。对于核技巧我们知道，其目的是希望通过将输入空间内线性不可分的数据映射到一个高纬的特征空间内使得数据在特征空间内是可分的，我们定义这种映射为ϕ(x)ϕ(x)，那么我们就可以把求解约束最优化问题变为minαs.t.αi≥0,12∑Ni=1∑Nj=1αiαjyiyj(ϕi⋅...

2018-11-14 19:59:22 15806

转载最小二乘法与最大似然函数的区别

大似然估计与最小二乘估计的区别标签（空格分隔）：概率论与数理统计最小二乘估计对于最小二乘估计来说，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值与观测值之差的平方和最小。设Q表示平方误差，YiYi表示估计值，Y^iY^i表示观测值，即Q=∑ni=1(Yi−Y^i)2Q=∑i=1n(Yi−Y^i)2最大似然估计对于最大似然估计来说，最合理的参数估计量应该使得从模型...

2018-11-14 19:41:15 1414

原创面对非线性可分的情况怎么处理

本人想到的方法：1、使用非线性函数进行划分2、将低维数据映射到高维，转化为线性可分，比如SVM核函数

2018-11-14 19:20:25 2275

原创 L1为什么具有稀疏性

解释一：假设费用函数 L 与某个参数 x 的关系如图所示：则最优的 x 在绿点处，x 非零。现在施加 L2 regularization，新的费用函数（）如图中蓝线所示：最优的 x 在黄点处，x 的绝对值减小了，但依然非零。而如果施加 L1 regularization，则新的费用函数（）如图中粉线所示：最优的 x 就变成了 0。这里利用的就是...

2018-11-14 19:06:18 9138 2

原创 linux知识点记录二

2018/5/8 查看每个磁盘的大小使用命令：df -h 2018/5/9 将windows文件传输到centos主机上，安装 yum install -y lrzsz；成功后就可以使用了；使用命令rz上传文件，就可以直接浏览windows主机上的文件了，直接拖到窗口也是同样的效果；使用下载命令sz，将Linux上的文件下载到windows中 2018/5/9 当运行某命...

2018-11-14 10:20:38 134

原创 python 知识点记录二

2017/5/4 numpy.array可以直接计算var mean sum等值 2017/5/8 print输出%符号需要%% prin('%d%%'%d) 2017/5/15 anacoda在anacoda prompt中使用pip安装 2017/5/19 dataframe删除所有含Nan的列,DataFrame.dropna(axis=1) 201...

2018-11-14 10:19:28 486

原创自编码器参数是否需要相称呢

可供选择的；

2018-11-09 12:02:47 675

原创 CNN用于股票研究的一种全新理念

传统方法的不足：一是线性；二是失去时效性；三是失去平移不变性；但没有明白CNN如何能解决，虽然CNN能解决这些问题，但无法明白如何应用到股票市场；第一次看见t-SNE的定义论文题目： ...

2018-11-09 10:07:29 1075

原创 kmeans 是Nondeterministic algorithm

问题来源：上述论文中提到kmeans 聚类算法是非确定性；不太明白？但kmeans为什么是非确定性的算法呢？

2018-11-08 10:14:30 533

转载神经网络中的矩阵求导及反向传播推导

两层全连接神经网络的实现, 包括网络的实现、梯度的反向传播计算和权重更新过程： # -*- coding: utf-8 -*-import numpy as np# N is batch size; D_in is input dimension;# H is hidden dimension; D_out is output dimension.N, D_in, H, D_ou...

2018-11-04 10:56:05 1226

转载 Deep Learning Papers 总结

Deep Learning Papers Reading RoadmapIf you are a newcomer to the Deep Learning area, the first question you may have is "Which paper should I start reading from?"Here is a reading roadmap of De...

2018-11-02 10:26:03 534

转载 126篇殿堂级深度学习论文分类整理从入门到应用（下）

应用3.1 自然语言处理 (NLP)█[1] Antoine Bordes, et al. "Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing." AISTATS(2012) [pdf] ★★★★地址：https://www.hds.utc.fr/~bordesan/d...

2018-11-02 10:10:46 377

转载 126篇殿堂级深度学习论文分类整理从入门到应用（上）

如果你有非常大的决心从事深度学习，又不想在这一行打酱油，那么研读大牛论文将是不可避免的一步。而作为新人，你的第一个问题或许是：“论文那么多，从哪一篇读起？”本文将试图解决这个问题——文章标题本来是：“从入门到绝望，无止境的深度学习论文”。请诸位备好道具，开启头悬梁锥刺股的学霸姿势。开个玩笑。但对非科班出身的开发者而言，读论文的确可以成为一件很痛苦的事。但好消息来了——为避免初学者陷入迷...

2018-11-02 10:08:07 1097