机器学习、神经网络计算过程的矩阵化与向量化

为什么需要矩阵化向量化运算过程? numpy在实现内部运算的时候,对矩阵运算过程进行了优化,且优化效果特别明显。如果我们使用的是原始的for循环虽然也可以完成任务,但是频繁的使用for循环将会大大的增加计算时间。我们应该尽量把运算向量化,交给numpy去完成。  举个例子:  一个输入样本X由1...

2018-07-23 12:59:33

阅读数 252

评论数 0

一边Upsample一边Convolve:Efficient Sub-pixel-convolutional-layers详解

前言 这篇文章介绍<Is the deconvolution layer the same as a convolutional layer?>论文中提出的一种结合上升采样upsample和卷积操作的的一种方法,称之为Sub-piexl convolu...

2018-07-17 17:49:04

阅读数 1432

评论数 1

Jaccard系数与Jaccard距离

Jaccard(杰卡德)系数主要用于计算样本间的相似度。Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式为:  jaccard系数相反的即为jaccard距离,用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度,公式为:  Jaccard系数主要...

2018-07-16 15:17:55

阅读数 667

评论数 0

Simple matching coefficient

From Wikipedia, the free encyclopediaJump to navigationJump to searchThe simple matching coefficient (SMC) or Rand similarity coefficient is a statis...

2018-07-16 15:16:51

阅读数 181

评论数 0

等级资料Ridit分析及正确使用

https://wenku.baidu.com/view/68d5b71302768e9950e7383c.html

2018-07-13 18:22:08

阅读数 417

评论数 0

数据挖掘模型中的IV和WOE详解

1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变...

2018-07-13 16:11:09

阅读数 105

评论数 0

使用本福德定律甄别数据造假(Benford’s Law)

数据造假的甄别在数据分析领域是一个热门的话题,也是对数据分析师的一项挑战。分析数据造假的方法有很多种。我们在前面的系列文章中曾经介绍过两种检验作弊流量的方法。一种是根据历史经验及分布情况的多维度交叉检验,另一种是使用随机森林模型根据已知作弊流量的特征对新流量进行分类及预测。本篇文章介绍一种神奇的数...

2018-07-13 09:53:27

阅读数 639

评论数 0

逆变点与协变点

这个问题来自之前这篇scala类型系统:15) 协变与逆变的评论里的问题遇见一个这样的问题class In[+A]{ def fun(x:A){} } 会提示error: covariant type A occurs in contravariant position in type A of ...

2018-07-12 19:15:26

阅读数 55

评论数 0

Scala基础 - 传名参数和传值参数(by-name/by-value parameter)

1. 介绍传值参数在函数调用之前表达式会被求值,例如Int,Long等数值参数类型;传名参数在函数调用前表达式不会被求值,而是会被包裹成一个匿名函数作为函数参数传递下去,例如参数类型为无参函数的参数就是传名参数。下文将举例说明这两者的区别。2. 简单类型的传递示例2.1 传值参数(by-value...

2018-07-12 16:06:46

阅读数 103

评论数 0

HIVE中select除了某些字段之外的剩余所有字段

HIVE中select除了某些字段之外的剩余所有字段这是HIVE中查询语句的一个小技巧,一个表字段太多,我们想要除个别字段外的剩余所有字段,全部列出来看起来难受,实际上hive语句可以解决这个问题。Hive 0.13.0之后,select列表支持正则表达式了insert overwrite tab...

2018-07-05 20:23:30

阅读数 1150

评论数 0

sklearn中的异常检测方法

SKLEARN——Novelty and Outlier Detection简介     很多方法都可以检测一个新的检测样本,是符合当前样本分布的成员还是不一样的利群点。通常,这些方法被用来对真实数据集进行清洗。这些检测方法可以分为两种:novelty detection: The trainin...

2018-07-04 18:01:43

阅读数 191

评论数 0

异常、离群点检测 一分类——OneClassSVM

OneClassSVM两个功能:异常值检测、解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM;OneClassSVM还有一个功能就是异常值检测。其他我的相关博客: 1、机器学习︱非平衡数据处理方式与评估 2、RFM...

2018-07-04 16:28:04

阅读数 872

评论数 0

L-BFGS

L-BFGS算法比较适合在大规模的数值计算中,具备牛顿法收敛速度快的特点,但不需要牛顿法那样存储Hesse矩阵,因此节省了大量的空间以及计算资源。本文主要通过对于无约束最优化问题的一些常用算法总结,一步步的理解L-BFGS算法,本文按照最速下降法 - 牛顿法 - 共轭梯度法 - 拟牛顿法 - DF...

2018-07-04 11:02:03

阅读数 230

评论数 0

稀疏表示(Sparse Representations)

1.什么是稀疏表示:用较少的基本信号的线性组合来表达大部分或者全部的原始信号。其中,这些基本信号被称作原子,是从过完备字典中选出来的;而过完备字典则是由个数超过信号维数的原子聚集而来的。可见,任一信号在不同的原子组下有不同的稀疏表示。假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一...

2018-07-03 09:26:03

阅读数 1111

评论数 0

随机过程--Metropolis-Hastings算法

随机过程–Metropolis-Hastings算法随机过程Metropolis-Hastings算法蒙特卡罗方法生成随机数求解概率和期望问题栗子马尔可夫链Metropolis算法Metropolis-Hastings算法蒙特卡罗方法  蒙特卡罗(Monte Carlo)方法又称随机抽样或统计试验...

2018-07-02 16:48:38

阅读数 220

评论数 0

Bootstrap方法详解——技术与实例

一、Introduction如果说到Bootstrap你会想到什么?是Twitter推出的那个用于前端开发的开源工具包吗?Unfortunately,本文要讨论的并非是Bootstrap工具包,而是统计学习中一种重采样(Resampling)技术。这种看似简单的方法,对后来的很多技术都产生了深远的...

2018-07-02 16:05:41

阅读数 1312

评论数 1

蒙特卡洛采样之拒绝采样(Reject Sampling)

引子蒙特卡洛(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题。当所求解问题可以转化为某种随机分布的特征数(比如随机事件出现的概率,或者...

2018-07-02 15:57:03

阅读数 191

评论数 0

基于Box–Muller变换的正态随机数生成方法

为什么我的眼里常含泪水?因为我有一个算法不会。为了节约点眼泪,今天我们就来介绍著名的Box–Muller变换,基于这种变换,我们便可以得到一个从均匀分布中得到正态分布采样的算法,本文也会详细解释其中蕴含的数学原理。Box–Muller变换最初由 George E. P. Box 与 Mervin ...

2018-07-02 15:41:32

阅读数 309

评论数 0

自组织神经网络算法-SOM

相比于bp神经网络算法,som相对来说比较容易理解。自组织神经网络,是一种用于聚类的神经网络算法,从名字便可以看出,这是一种无监督式的算法,意味着,它不需要任何训练样本,便可以直接对输入样本根据其特征 分类,将具有相似特征的划分为一类。1 算法结构som算法是由两层网络组成,输入层与输出层(也叫作...

2018-07-02 11:18:21

阅读数 2391

评论数 2

自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第三部分

前面两篇介绍了SOM的基本概念和算法,第一部分,第二部分,本篇具体展开一下应用中的一些trick设定。SOM设计细节输出层设计 输出层神经元数量设定和训练集样本的类别数相关,但是实际中我们往往不能清除地知道有多少类。如果神经元节点数少于类别数,则不足以区分全部模式,训练的结果势必将相近的模式类合并...

2018-07-02 11:08:17

阅读数 71

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭