自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 SCiForest—python实现

1、说明SCiForest与iForest的最大差别在于其利用超平面去划分数据集,其利用了多个特征组合划分,并且还在可选范围内选择了最佳的划分超平面,而不是像iForest一样,只是随机选单个特征,随机选单个值(SCiForest论文链接)但论文中并未给出代码实现,更未被收录到如scikit−learnscikit-learnscikit−learn、PyODPyODPyOD 等机器学习常用库,可能异常检测是机器学习的一个小的子领域,不像nlpnlpnlp和CVCVCV如此热门吧。下面给出SCiFore

2020-08-10 14:54:49 850 1

原创 随机递归特征消除

随机递归特征消除1、背景介绍2、算法介绍3、使用方法

2020-03-27 22:40:17 1099

原创 布隆过滤器

布隆过滤器1、使用场景2、实现原理1、使用场景布隆过滤器用于检查元素是否存在在集合中,比list、set、dict占用空间更少。当以上类型的集合特别大时,以至于无法加载进内存时,布隆过滤器则显得更加有用。天下没有免费的午餐,布隆过滤器是一种概率数据结构,存在一定误报。2、实现原理布隆过滤器由以下几个部分组成:nnn个位组成的数组,每个位的初始值都为000一系列哈希函数h1,h2......

2019-12-27 16:20:22 139

原创 异常检测算法分类总结

异常检测算法分类一、预测(监督机器学习)1.1 简介1.2 适用范围1.3 注意事项二、统计度量2.1 简介2.2 常用方法三、无监督机器学习3.1 常用方法四、拟合优度检验4.1 简介4.2 椭圆包络拟合(协方差估计拟合)五、基于密度的算法5.1 简介5.2 局部离群因子(LOF)在选择算法之前,重要的是考虑数据源的性质和质量,数据是否收到异常污染将会影响检测方法。如果训练数据不包含异常(或标...

2019-12-10 09:15:45 2159

原创 大量集合中查询与给定集合的杰卡德相似度大于某个阈值的快速方法

Big data looks Small!

2019-12-03 14:56:47 322

原创 贪心算法与二分搜索

巧妙的结合贪心算法和二分搜索,且易错

2019-11-29 11:38:11 147

原创 多重集组合数问题

使用动态规划解决多重集组合数问题,其重点为降低复杂度的递推公式推导。

2019-11-14 10:41:58 317

原创 python文件简要执行流程

Created with Raphaël 2.2.0开始是否有pyc文件?代码是否修改编译成pyc文件执行pyc文件结束yesnoyesno

2019-11-06 16:34:04 142

原创 python函数缓存

递归是我们常用的一种方式之一,特别是当表达式比较复杂难以化解成循环来求解的时候。但递归经常会进行重复计算,这无形中增大了计算开销,如果我们可以把计算的中间结果保存起来就好了。python当然优雅的实现了这一点。不多说,直接上代码:# 函数缓存,maxsize设置缓存多少个最近的值。from functools import lru_cache@lru_cache(maxsize=9)def...

2019-10-31 10:28:27 189

原创 梯度垂直等高面(线)的证明

1、梯度的定义多元函数f(x)f(x)f(x)所有偏导数构成的向量,称为梯度。∇f(x)=[∂f∂x1∂f∂x2⋮∂f∂xn]\nabla f(x) = \begin{bmatrix}\frac{\partial f}{\partial x_1} \\\frac{\partial f}{\partial x_2} \\\vdots \\\frac{\partial f}{\parti...

2019-10-16 18:04:28 1643

原创 正则化

机器学习中的一个核心问题是设计一个不仅在训练数据上表现良好的,而且在新的输入上泛化好的算法。许多策略被显式地设计来减少测试误差(可能以增大训练误差为代价),这些策略被通常为正则化。常见的正则化策略有:参数范数惩罚、增强数据集、数据添加噪声、提前终止、dropout策略、卷积神经网络中的参数绑定和参数共享,以及bagging等方法。一、参数范式惩罚参数范式惩罚通过对目标函数JJJ添加一个参数范式...

2019-10-08 18:03:42 248

原创 线性代数笔记

机器学习相关的线性代数基础知识

2019-09-27 15:15:57 273

原创 分类问题损失函数的由来

使用机器学习或深度学习来进行分类时,一个常用的损失函数叫交叉熵损失函数,那么为什么是它?仅仅是人为定义吗?我们来进行一个简单的推导

2019-09-24 15:19:04 407

原创 误差的反向传播

基本概念神经网络的代价函数是关于权重和偏置的多元函数且为复合函数,为求代价函数的最小值,可以使用求多元函数极小值的方法进行求解,因为最小值比如存在于极小值中。本文暂不讨论如何避免陷入局部最小值的方法,只讨论求极小值的方法。毫无疑问,代价函数在各个参数的偏导数为0的位置才是极小值位置。因此,反向传播的最终含义是求:∂C∂wjkl\frac{\partial C}{\partial w_{jk}^l...

2019-09-22 16:07:28 897

原创 代价函数与梯度下降算法

梯度下降算法直观解释

2019-09-20 11:57:36 371

原创 LSTM实现情感分类

从数据处理到实现情感分类,基于LSTM实现

2019-09-16 16:57:23 2209

原创 基于LSTM的问答记忆网络

基于LSTM的问答记忆网络词典大小:32;嵌入层以及LSTM输出大小:64和32。问题最大长度:4;故事最大长度:14。每个编码器为嵌入层,其后可添加Dropout层。4,14,14,none,4,64none,14,64none,14,4none,14,4none,14,4none,4,14none,4,64none,4,78none,32none,32none,vocab_sizequ...

2019-09-16 16:37:42 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除