自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 向量距离、随机变量相关性与概率分布的差异度量

常见距离与相似度度量欧氏距离定义在两个向量(两个点)上:点x\mathbf{x}x和点y\mathbf{y}y的欧氏距离为:dEuclidean=(x−y)⊤(x−y) d_{Euclidean}=\sqrt{(\mathbf{x}-\mathbf{y})^\top (\mathbf{x}-\mathbf{y})} dEuclidean​=(x−y)⊤(x−y)​曼哈顿距离Manhattan Distance(L1范数),也称为城市街区距离(City Block distance)。定义在两个

2020-09-22 14:44:32 837

原创 Hash原理、冲突解决及其在文本降维和topK问题中的应用

Hash概述基本原理哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。数组特点:寻址容易,插入和删除困难;链表特点:寻址困难,插入和删除容易;综合两者的特性的数据结构,就是哈希表。拉链法实现:左边是个数组,...

2020-03-25 14:01:11 451

原创 ubuntu简洁安装nginx图片服务器

背景客户端访问服务器端图片时,采用nginx在服务器端部署图片服务器。安装nginx建议采用源码安装nginx,这样配置文件比较全,如果使用apt-get安装过nginx,建议先卸载掉,卸载方式如下#su到超级用户rm -rf /etc/nginx/rm -rf /usr/sbin/nginxrm /usr/share/man/man1/nginx.1.gzapt-get remo...

2020-03-25 13:40:01 374

原创 集成学习之随机森林(RandomForest)

标题

2020-02-02 21:29:11 823

原创 集成学习之Xgboost、LightGBM对GBDT的改进

​同层级节点,在选择最佳分裂点,进行枚举的时候并行。选择分类点方法:Weighted Quantile Sketch这个模型的参数是什么?因为我们知道,“知识”蕴含在参数之中。第二,用来优化这些参数的目标函数又是什么?xgboost可以支持自定义损失函数,只需满足二次可微即可。...

2020-02-02 21:06:11 2005

原创 深度学习之卷积神经网络(CNN)的设计准则

卷积神经网络结构卷积神经网络是多级神经网络,包含滤波级(filtering stage)与分类级(classification stage),其中,滤波级用来提取输入信号的特征,分类级对学习到的特征进行分类,两级网络参数是共同训练得到的。滤波级包含卷积层(convolutional layers),池化层(pooling layer)与激活层(activation layers)等3个基本单元,...

2020-02-02 10:46:08 4802

原创 深度学习之长短期记忆网络(LSTM)的网络结构

从Cell State开始在下面的过程中,我们总是用语言模型作为例子来说明,心中始终有个具体例子对照,可以大大减轻理解上的困难。来看这句话:“我是中国人,我会说中文”,我们的任务是根据这句话前面的内容,预测最后的两个字“中文”。要做到这一点,模型必须能够记住前面的信息,尤其是“中国人”。在LSTM中,记住前面的信息是通过Cell State来实现的。所以,在理解LSTM的结构时,应始终以 C...

2020-02-01 17:55:27 2902 2

原创 Mac安装lightGBM错误 image not found

错误安装pip install lightgbm使用时直接调用:import lightgbm as lgb然后在notebook中使用时会报错:那么请先执行:这一步会卸载原来错误安装的库pip uninstall lightgbm安装cmake依赖在命令行,依次执行以下命令,如果出现Error: invalid option: --without-multilib错误,把后面的–...

2020-01-16 14:06:33 429

原创 模型调参经验-LR、SVM、RF、GBDT、Xgboost、LightGBM

LRSVMXgboostCNNLSTM

2020-01-15 11:22:29 4768

原创 无约束最优化问题求解--最小二乘、梯度下降和牛顿法原理推导对比

数据理论上是呈现线性关系,但是实际数据往往不是满足线性关系,但大体上的趋势呈现出线性关系。这个时候,我们最终希望得到的是唯一的线性关系,而不是一堆实验数据,所以产生了用一堆实验数据来确立理论上的线性关系的这样的问题。...

2019-08-25 10:21:33 2672

原创 python实现《剑指offer》之链表-从尾到头打印链表

1.题目从尾到头打印链表2.描述输入一个链表,按链表值从尾到头的顺序返回一个ArrayList。3.解题思路python实现

2019-08-15 16:43:30 96

原创 一步到位!Mac上使用Git与GitHub进行项目管理

安装git创建ssh key、配置git提交本地项目到GitHub

2019-07-21 19:27:44 392

原创 python实现《剑指offer》之数组-构建乘积数组

1.题目构建乘积数组2.描述给定一个数组A[0,1,…,n-1],请构建一个数组B[0,1,…,n-1],其中B中的元素B[i]=A[0]A[1]…*A[i-1]A[i+1]…*A[n-1]。不能使用除法。3.解题思路python实现...

2019-06-27 10:09:49 131

原创 python实现《剑指offer》之数组-数组中重复的数字

1.题目数组中重复的数字2.描述在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字2。3.解题思路python实现...

2019-06-17 16:56:36 191

原创 python实现《剑指offer》之数组-二维数组中的查找

1.题目二维数组中的查找2.描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。3.解题思路元素先依次进入栈A,再从栈A依次弹出到栈B,然后弹出栈B顶部的元素,整个过程就是一个队列的先进先出。python实现...

2019-06-03 16:41:24 112

原创 python实现《剑指offer》之栈和队列-用两个栈实现队列

1.题目用两个栈实现队列2.描述用两个栈来实现一个队列,完成队列的Push和Pop操作。 队列中的元素为int类型。3.解题思路入队列:将元素进栈A出队列:判断栈B是否为空,如果为空,则将栈A中所有元素pop,并push进栈B,栈B出栈;如果不为空,栈B直接出栈。python实现class Solution: def __init__(self): self...

2019-05-23 16:02:39 168

原创 python实现《剑指offer》之栈和队列-滑动窗口的最大值

滑动窗口的最大值给定一个数组和滑动窗口的大小,找出所有滑动窗口里数值的最大值。例如,如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3,那么一共存在6个滑动窗口,他们的最大值分别为{4,4,6,6,6,5}; 针对数组{2,3,4,2,6,2,5,1}的滑动窗口有以下6个: {[2,3,4],2,6,2,5,1}, {2,[3,4,2],6,2,5,1}, {2,3,[4,2,6]...

2019-05-05 09:42:13 324

原创 python实现《剑指offer》之全书概要

**依同学推荐,准备开始刷《剑指offer》66题。五一假期最后一天,花了一下午时间,将本书囫囵吞枣的浏览了一遍,旨在了解作者的行文思路和框架,以及主张的核心编程技巧。以下为全书概要。**——题记2019年5月4日 于国家图书馆1.数据结构数组占据连续内存并按顺序存储,需先指定容量,后根据大小分配内存。字符串若干字符组成的序列。链表由指针将若干节点连接成链状结构。动态数据结...

2019-05-04 18:42:45 182 1

原创 Logistic Regression 输出值的实际意义是什么?

logistic regression 用来解决分类问题。其核心思想是寻找一个非线性函数sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。算法的输出是0到1之间的值,这个值是真实的概率吗?带着这个问题,我们来一探究竟。logistic regression 可以概述为这样的过程:1.寻找合适的hypothesis函数,即我们要找的分类函数,一般表示为h函数,它用来预测输入数据的判断...

2019-02-10 20:56:21 4016

原创 集成学习之梯度提升决策树(GBDT)

集成学习(ensemble learning)构建并结合多个学习器来完成机器学习任务。按照个体学习器之间是否存在依赖关系可以分为两类,两类各以Boosting系列和Bagging系列为典型代表。梯度提升树(Gradient Boosting Decision Tree)是Boosting系列中很重要的算法。1.集成学习集成学习的核心思想是:基于训练集,训练若干弱学习器,经过特定策略结合在一起,...

2019-01-11 16:36:07 857

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除