自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (2)
  • 收藏
  • 关注

原创 集成算法梳理——XGBoost

文章目录算法原理损失函数分裂结点算法正则化对缺失值处理优缺点优点缺点应用场景xgb API算法原理算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就...

2019-04-10 20:44:07 577

原创 集成学习算法梳理——GBDT

文章目录GBDT概述前向分步算法损失函数负梯度拟合损失函数分类算法正则化优缺点优点缺点sklearn APIsklearn.ensemble.GradientBoostingClassifier()应用场景参考资料GBDT概述GBDT(Gradient Boosting Decision Tree, 梯度提升决策树)不仅可以用于分类问题,还可以用于回归问题,GBDT的核心思想在于,每一棵树学习...

2019-04-07 20:44:45 1190

原创 集成学习算法梳理——RF

文章目录集成学习集成学习的理论基础PAC(probably approximately correct),可能近似正确学习框架强可学习&弱可学习主要算法Boosting、BaggingBoostingBaggingBootstrapBagging(Bootstrap aggregating)结合策略平均法投票法stackingblending随机森林随机森林推广Extra trees优缺点...

2019-04-03 13:52:54 865 2

原创 Connecting language and knowledge with heterogeneous representations for neural relation extraction

This is a paper about relationship extraction on NAACL 2019. Connecting language and knowledge with heterogeneous representations for neural relation extractionProblemIn the process of building a kn...

2019-04-02 14:56:07 538

原创 Resample方法

文章目录BootstrapBaggingBoostingAdaBoostBootstrap在原有的训练数据集上重复性地随机选取n个数据.核心思想在于,给定训练集,当你认为给定的训练集不能够很好地反应数据的真实分布时,可以采用重采样的方法,来增大样本.Baggingbootstrap aggregating在原有的训练数据集DDD上,采用bootstrap的方法独立选取mmm个训练集分别...

2019-01-03 17:59:33 1409

原创 基于adaboost的人脸快速检测

文章目录人脸检测方法基于肤色特征的检测高斯肤色模型肤色模型的缺点基于AdaBoost的快速人脸检测Haar-like矩形特征Haar-like特征的表示快速计算任意矩阵内所有像素的亮度之和AdaBoost基于AdaBoost的快速人脸检测基于分级分类器的加速策略分级分类器的构建人脸检测方法基于规则/知识方法归纳描述人脸特征的规则,如灰度分布、比例关系、纹理信息等.基于模板的方法固定模板...

2019-01-01 12:52:52 728

原创 最大熵模型

文章目录最大熵原理最大熵模型的定义最大熵模型的学习参考资料最大熵原理最大熵模型是由最大熵原理推导实现的.最大熵原理认为,学习概率模型时,在所有可能的概率模型的中,即在所有可能的概率分布中,熵最大的模型时最好的模型. 当有约束条件时,就在满足约束条件的情况下选取熵最大模型.假设离散随机变量X的概率分布为P(X)P(X)P(X),则其熵为H(P)=−∑xP(x)log⁡P(x)H(P) =...

2018-12-27 10:58:08 225

原创 L1正则为什么会产生稀疏解

文章目录正则化的本质L2正则化直观解释数学解释L1正则化直观解释数学解释在机器学习中,当模型过于复杂时,为了防止产生过拟合的现象,最常用的方法时采用正则化,如L1正则和L2正则.正则化的本质L2正则就是在原来的损失函数的基础上加上权重参数的平方和.L=L0+λ∑jwj2L = L_0 + \lambda\sum_j w_j^2L=L0​+λj∑​wj2​其中L0L_0L0​时训练样本误差...

2018-12-27 10:27:00 1371

原创 SVM和LR对比

文章目录SVM和LR的相同之处SVM和LR的不同SVM和LR的相同之处二者都是监督学习方法.二者都是分类算法.二者都是线性分类算法,二者的分类决策面都是线性的,即求解一个超平面…SVM可以通过核技巧拓展到非线性.二者都是判别模型判别模型不会计算联合概率,而是直接生成表示条件概率的判别函数. 生成模型先计算联合概率,然后通过贝叶斯转化为条件概率. 常用的生成模型有朴素贝叶斯、隐马尔科...

2018-12-26 21:00:25 354

原创 AdaBoost详解

文章目录提升方法的思路强可学习和弱可学习PAC学习AdaBoostAdaBosst算法AdaBoost算法的训练误差分析前向分步算法前向分步算法和AdaBoost参考文献提升方法的思路对于一个复杂任务,将多个决策进行适当的综合所得出的判断,要比其中任何一个决策更为准确.对于分类问题,提升方法的就是从弱学习方法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器,大多数提...

2018-12-26 14:49:43 1912

转载 transformer-pytorch实现

transformer-pytorch实现

2018-12-09 16:37:08 561

原创 逻辑斯谛回归(对数几率回归)

文章目录LR简介损失函数参考LR简介逻辑斯谛回归是一种经典的线性分类方法,又被称为对数几率回归,其属于对数线性模型。线性回归完成了数据的拟合,我们通过引入一个sigmoidsigmoidsigmoid函数,即可在线性回归模型的基础上实现分类。sigmoid函数定义如下y=11+e−zy = \frac{1}{1 + e^{-z}}y=1+e−z1​以二分类任务为例,取y∈{0,1...

2018-12-09 13:47:58 719

原创 牛顿法与拟牛顿法

牛顿法和拟牛顿法是求解无约束最优化的常用方法,有收敛速度快的优点. 牛顿法属于迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算复杂. 拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵,简化了这个过程.牛顿法对于无约束优化min⁡x∈Rnf(x)\min_{x\in R^n} f(x)x∈Rnmin​f(x)x∗x^*x∗是目标的极小值点.假设f(x)f(x)f(x)有二阶连续偏导数...

2018-12-02 18:03:06 810

原创 《Attention Is All You Need》

本文是对Google2017年发表于NIPS上的论文"Attention is all you need"的阅读笔记.对于深度学习中NLP问题,通常是将句子分词后,转化词向量序列,转为seq2seq问题.RNN方案采用RNN模型,通常是递归地进行yt=f(yt−1,xt)y_t=f(y_{t-1},x_t)yt​=f(yt−1​,xt​),优点在于结构简单,十分适合序列建模;缺点在于需要...

2018-12-02 14:31:00 581

原创 自然语言处理(四)神经网络语言模型及词向量

神经网络语言模型用句子SSS的概率p(S)p(S)p(S)来定量刻画句子。统计语言模型是利用概率统计方法来学习参数p(wi∣w1…wi−1)p(w_i|w_1\dots w_{i-1})p(wi​∣w1​…wi−1​),神经网络语言模型则通过神经网络学习参数.统计语言模型的缺点平滑技术错综复杂且需要回退至低阶,使得该模型无法面向更大的n元文法获取更多的词信息.基于最大似然估计的语言模型...

2018-12-01 16:26:05 1997

原创 自然语言处理(三)语言模型

文章目录语言模型基本概念n元文法(n-gram)语言模型参数估计参数估计数据平滑性能评价语言模型应用改进的语言模型n-gram存在的问题基于缓存的语言模型基于混合方法的语言模型参考资料语言模型基本概念用数学的方法描述语言规律,即用句子S=w1,w2…wnS = w_1,w_2\dots w_nS=w1​,w2​…wn​的概率p(S)p(S)p(S)刻画句子的合理性.对语句合理性判断:规则...

2018-11-29 19:01:47 580

原创 拉格朗日对偶性

拉格朗日对偶性在机器学习中,我们经常会遇到给定某些约束条件求解某个函数最大值或最小值的情况,称之为约束最优化,通常的做法是利用拉格朗日对偶性将原始问题转化为对偶问题,通过解对偶问题进而得到原始问题的解. 在机器学习的很多方法中都有用到此方法,如最大熵模型和SVM.原始问题我们假设f(x),ci(x),h(x)f(x),c_i(x),h_(x)f(x),ci​(x),h(​x)是定义在RnR^...

2018-11-28 17:00:33 532

原创 自然语言处理(二)概率论信息论基础

概率论概率概率的统计定义频率事件A在n次重复随机试验中出现的次数与n的比值。概率在同一条件下做的大量重复试验中,若事件A发生的频率总是在一个确定的常数p附近摆动,并且逐渐稳定于p,那么数p就表示事件A发生的可能性大小,并成为事件A的概率.概率的公理化定义设E是随机试验,Ω是E的样本空间,对于E 的每一个事件A赋予一个实数值,表示事件发生的可能性(记为P(A)P(A)P(A))...

2018-11-27 22:22:20 627 2

原创 自然语言处理(一)NLP概述

NLP概述NLP是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术.NLP内容结构NLP基础技术词法分析词法分析目的是从句子中分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词性. 词法分析是很多中文信息处理任务的必要步骤.自动分词命名实体识别词性标注句法分析句法分析是对句子和短语结构进行分析,如句子的形式结构...

2018-11-27 22:21:10 1150

原创 数据降维(四)ISOMAP

流形学习——ISOMAP算法Isomap(Isometric Feature Mapping)是流行学习的一种,用于非线性数据降维,是一种无监督算法.流形流形是一个局部具有欧式空间性质的拓扑空间,流形能很好地近似任意高维的子空间.测地线距离测地距离(Geodesic Distance),在高维空间中度量距离不应当直接使用欧式距离,而应当使用测地距离.测地线距离定义邻近的点:输入空间...

2018-11-27 19:58:05 1171 1

原创 数据降维(三)PCA主成分分析

文章目录PCA主成分分析目标函数1:最小化重建误差目标函数2:最大化方差求解PCA(1)表现求解PCA(2)PCA总结非线性方法核方法KPCA算法PCA主成分分析PCA(principal Component Analysis,主成分分析)目标函数1:最小化重建误差假定∣∣wi∣∣=1,wiTwj=0(i≠j)||w_i||=1,w_i^Tw_j = 0(i\neq j)∣∣wi​∣∣=...

2018-11-27 18:42:15 984

原创 数据降维(一)基础篇

文章目录降维简介降维方法维度选择维度抽取基础知识特征分解奇异值分解特征值或奇异值的物理意义奇异值向量的含义降维简介降维或嵌入式指将原始的高维数据映射到低维空间.实质的想法:高度冗余的数据通常是可以被压缩的,即高维复杂的数据其内在的维度可能比较小,或与任务相关的维度比较小.降维方法维度选择选择已有维度的一个子集维度抽取通过组合已有的维度构建新的维度映射:原始空间f:Rd→Rd′f...

2018-11-27 17:46:05 436

原创 数据降维(二)多维缩放MDS

文章目录降维简介降维方法维度选择维度抽取基础知识特征分解奇异值分解特征值或奇异值的物理意义奇异值向量的含义线性模型多维缩放MDSMDS的形式化MDS算法过程降维简介降维或嵌入式指将原始的高维数据映射到低维空间.实质的想法:高度冗余的数据通常是可以被压缩的,即高维复杂的数据其内在的维度可能比较小,或与任务相关的维度比较小.降维方法维度选择选择已有维度的一个子集维度抽取通过组合已有的...

2018-11-27 01:30:13 528

原创 隐马尔可夫模型

文章目录隐马尔可夫模型简介隐马尔可夫模型的定义隐马尔可夫模型的三个基本问题概率计算算法直接计算法前向算法后向算法学习算法监督学习方法隐马尔可夫模型简介隐马尔可夫模型(Hidden Markov Model,HMM)是可用于标注问题的统计学习模型,描述由隐马尔可夫链随机生成观测序列的过程,属于生成模型. 序列的每一个位置被看作是一个时刻.隐马尔可夫模型的定义定义 (隐马尔可夫模型)设QQQ...

2018-11-24 19:59:22 441

原创 EM算法推导及其收敛性证明

EM算法简介EM算法(Expectation maximization algorithm,期望极大算法)是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代分为两步:E步,求期望;M步,求极大。概率模型有时既含有观测变量,又含有隐变量或潜在变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计或贝叶斯法估计模型参数。但是当模型...

2018-11-22 13:10:22 2593

原创 Devstack真实环境搭建OpenStack

文章目录环境介绍环境搭建虚拟机安装Ubuntu环境配置砖治疑难杂症环境介绍VMware Workstation Pro + Ubuntu18.04(LTS) + OpenStack Queens本文采用devstack进行自动化安装。环境搭建下载VMware workstation编辑-虚拟网络编辑器-更改设置下载Ubuntu镜像清华大学镜像站ubuntu18.04-s...

2018-11-20 12:05:20 5141 5

原创 SDN技术概述

 1.SDN架构定义       软件定义网络(Software Defined Networking,SDN)是一种数据平面与控制分离、软件可编程的新型网络体系架构,开放网络基金会(Open Network Foundation,ONF)作为目前SDN最重要的标准化组织,一直致力于SDN网络体系架构的标准化。OFN定义的SDN体系架构图如下图所示,SDN采用了集中式的控制平面和分布式的转发...

2018-11-20 11:38:27 14406

原创 vim生存指南

文章目录No.1活下去No.2感觉良好No.3 更好,更强,更快No.1活下去模式:NormalInsertESC返回至Normal模式i进入Insert在Normal活下去i:进入Insert模式,按ESC返回Normal模式x:删除当前光标所在的一个字符:wq:存盘+退出(:w存盘,:q退出)(:w后可以跟文件名)dd:删除当前行,并将删除的行存入剪贴板(相当于剪切)...

2018-11-20 11:25:49 330

原创 正则表达式基础

文章目录基本语法回溯陷阱回溯python re模块正则表达式对象re中文文档re官方文档正则表达式在线测试hackerrank在线练习基本语法基本语法_菜鸟教程用\表示特殊形式或允许使用特殊字符,而不调用其特殊含义不以任何特殊方式在字符串字面值中以'r'前缀处理反斜杠所以r'\n'包含'\'和'n'两个字符,而'\n'表示换行符'.'默认情况下,匹配除换行符之外的任何字符,如果...

2018-11-20 11:21:39 146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除