自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 BP神经网络相关知识

神经元 神经网络最基本的成分是神经元模型,下图是已知沿用至今的M-P神经元模型: 该神经元接收前面其他n个神经元传递的输出值作为该神经元的输入,这些输入通过带权值的连接进行传递。神经元将接收到的总输入值与神经元阈值相比较,然后通过激活函数fff处理,最终形成本神经元的输出。 理想的激活函数是阶跃...

2020-05-28 17:36:18 44 0

原创 潜在狄利克雷分布(LDA)初探

文章目录多项式分布与狄利克雷分布多项式分布狄利克雷分布潜在狄利克雷分布模型文本生成模型定义LDA 与 PLSA 异同 潜在狄利克雷分布(Latent Dirichlet Allocation, LDA),是一种无监督学习算法,用于识别文档集中潜在的主题词信息。在训练时不需要手工标注的训练集,需要的...

2020-05-27 16:39:31 26 0

原创 概率潜在语义分析(pLSA) 相关知识

文章目录生成模型共现模型模型性质共现模型表示PLSA算法 概率潜在语义分析(PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督方法。PLSA 模型假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。该模型中的话题是不可直接观测到的,是潜在的隐变量。整个模型表示文本生成话题,话题...

2020-05-26 19:01:40 45 0

原创 潜在语义分析(LSA)相关知识

文章目录单词-文本矩阵话题向量空间文本在话题向量空间中的表示从单词向量空间到话题向量空间的线性变换潜在语义分析算法矩阵奇异值(SVD)分解算法非负矩阵(NMF)分解算法基本思想损失函数(1)平方损失(2)散度损失函数迭代学习算法(1)平方损失函数更新法则(2)散度损失函数的更新法则算法实现 潜在语...

2020-05-26 17:52:20 67 0

原创 奇异值分解(SVD)相关知识

文章目录奇异值分解的主要思想主要性质计算过程几何解释奇异值分解形式 奇异值分解的主要思想 奇异值(singular value decomposition, SVD)是一种矩阵因子分解方法。 其主要思想是:任意一个m×nm\times nm×n 矩阵都可以表示为三个矩阵的乘积(因子分解)形式,即:...

2020-05-26 17:46:44 16 0

原创 LightGBM 相关知识理解

lightGBM 简介 GBDT是个经典的模型,主要是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点,常被用于多分类、点击率预测、搜索排序等任务。 在LightGBM提出之前,还有个GBDT的高效实现:XGBoost。XGBoost是属于boosting家族,...

2020-05-20 18:45:50 235 0

原创 XGBoost算法的相关知识

文章目录背景定义损失函数确定叶节点的输出树的分裂基于分桶的划分策略总结 背景 讲XGBoost之前,先引入一个实际问题,即预测一家人每个人玩游戏的意愿值: 如果我们用XGBoost解决这个问题,步骤是:首先要训练出来第一棵决策树, 预测了一下小男孩想玩游戏的意愿是2, 然后发现离标准答案差一些,...

2020-05-15 21:09:08 142 0

原创 梯度提升树(GBDT)相关知识

文章目录前向分步算法负梯度拟合损失函数分类问题回归问题回归问题分类二分类多分类正则化优缺点优点缺点 GBDT(Gradient Boosting Decision Tree)是一种可用于处理分类和回归任务的机器学习集成算法。GBDT是属于Boosting族的算法,因此也是采用分步构建模型的方法。 ...

2020-05-15 21:05:02 46 0

原创 Adaboost算法和提升树算法

AdaBoost,是英文"Adaptive Boosting"(自适应增强),它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数...

2020-05-15 21:01:07 33 0

原创 分类与回归树(CART)相关知识

文章目录CART算法CART回归树生成CART分类树的生成连续值处理:离散值处理:CART 剪枝 CART算法 分类与回归树(CART)是应用广泛的算法,同样由特征选择、树的生成及剪枝组成,可以用于解决分类和回归问题。 ID3算法、C4.5算法分别使用了信息增益、信息增益比来选择特征,他们都使用了...

2020-05-13 08:32:21 165 0

原创 基于ID3、C4.5算法的决策树相关知识

文章目录基础概念熵条件熵信息增益信息增益比决策树生成ID3生成算法决策树剪枝C4.5生成算法 基础概念 熵 离散型变量X的概率分布是P(X)。它的熵H(X)  or  H(P){H(X) \; or \; H(P)}H(X)orH(P)越大,代表越均匀、越混乱、越不确定。熵的公式如下: H(P)=...

2020-05-13 08:27:37 105 0

原创 基于KD树的K近邻算法(KNN)算法

文章目录KNN 简介KNN 三要素距离度量k值的选择分类决策规则KNN 实现1,构造kd树2,搜索最近邻3,预测用kd树完成最近邻搜索 K近邻算法(KNN)算法,是一种基本的分类与回归算法,本文只讨论解决分类问题的KNN算法。 KNN 简介 思想:给定一个训练数据集,对于新输入的样本,在训练集中找...

2020-05-07 15:53:55 249 0

原创 逻辑斯蒂回归原理(二分类、多分类)

文章目录逻辑斯蒂分布二项逻辑回归模型模型参数估计多项逻辑斯蒂回归 逻辑斯蒂分布 逻辑斯蒂分布假设X是联系随机遍历,且分布函数、密度函数如下: F(x)=P(X⩽x)=11+exp⁡(−(x−μ)/γ)f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2 F(x)=P(X\leqs...

2020-05-07 10:26:17 160 0

原创 最大熵模型相关知识

预备知识 熵 离散型变量X的概率分布是P(X)。它的熵H(X)  or  H(P){H(X) \; or \; H(P)}H(X)orH(P)越大,代表越均匀、越混乱、越不确定。熵的公式如下: H(P)=−∑x∈XP(x)log⁡P(x) {H(P)} = {- \sum_{x \in X}P...

2020-05-06 16:12:09 133 0

原创 支持向量机器—SMO算法

文章目录引入SMO的背景两个变量二次规划求解方法选择两个变量的方法第一个变量选择第二个变量选择计算阈值b和差值EiE_iEi​SMO算法参考文章: 引入SMO的背景 前面的文章提到,SVM的学习问题可以转成下面的凸二次规划的对偶问题: min⁡α    12∑i=1N∑j=1NαiαjyiyjK(...

2020-05-05 22:21:03 76 0

原创 SVM 核函数相关知识

前面的文章讲述的都是将SVM用于线性可分或者近似线性可分的情况,对于非线性可分的情况,正是本文要讨论的内容。 核技巧 线性不可分问题是指不能用一个超平面将数据划分成两个部分,如下图所示: 但是如果我们对原始数据进行非线性变换,则有可能将原始数据映射到能够线性可分的空间中: 对于上面这样的数据,...

2020-05-03 15:08:49 63 0

原创 软间隔最大化SVM

软间隔最大化SVM 假设有训练集: T={(x1,y1),(x2,y2),...,(xm,ym)} T=\{(x_1, y_1),(x_2, y_2),...,(x_m, y_m)\} T={(x1​,y1​),(x2​,y2​),...,(xm​,ym​)} 其中yi∈{−1,+1}y_i \i...

2020-05-03 15:05:34 93 0

原创 线性可分支持向量机

一般的,当训练样本线性可分的时候,如下图所示: 可以找到无数个划分超平面。而线性可分支持向量机利用间隔最大化来求最优划分超平面,此时解是唯一的。 通过间隔最大化或者对应的凸二次规划问题学习到的分离超平面为: w∗⋅x+b∗=0 w^*\cdot x+b^*=0 w∗⋅x+b∗=0 对应的决策函数...

2020-05-01 18:35:30 248 2

原创 【统计学习方法】感知机笔记

文章目录感知机模型感知机损失函数感知机参数学习学习算法的原始形式学习算法的对偶形式 感知机是用于二分类的线性模型,输入是实例的特征,输出是类别。感知机模型目标是找到将数据线性划分的分离超平面。 感知机模型 输入空间:X⊆Rn\mathcal X\sube \bf R^nX⊆Rn 输出空间:Y={+...

2020-04-30 20:52:59 46 0

原创 条件随机场(CRF)相关理论知识

文章目录无向概率图模型条件随机场CRF 实例线性链条件随机场的简化形式线性链条件随机场的矩阵形式linear-CRF的三个基本问题1,概率计算问题前向后向概率概述前向后向概率计算linear-CRF的期望计算2,学习问题梯度下降法拟牛顿法3,预测问题维特比算法解码思路维特比算法流程linear-C...

2020-04-29 22:36:28 95 0

原创 EM算法应用:k均值聚类(k-means)和高斯混合模型(GMM)

上一篇文章,我们讲的期望最大化(EM)算法是一种非常强大的算法,应用于数据科学的许多场景。k-means是该算法非常简单且易于理解的一个应用。 k-means聚类 k均值聚类算法(k-means)将样本集合划分为k个子集,也就是将n个样本划分到k个类别中,每个样本到类别的中心距离最近。 EM角度的...

2020-04-27 11:00:53 310 0

原创 统计学习方法 第九章笔记: EM 算法

文章目录三硬币模型EM推导背景EM算法步骤EM算法的导出EM算法的收敛性 如果概率模型都是观测变量,那么给定数据就可以用极大似然估计法或者贝叶斯估计发去获得模型。但是,有时候概率模型既有观测变量,又有隐变量或者潜在变量,这样就不能用这些估计方法了。本文要介绍的EM算法可以解决这类问题。 三硬币模型...

2020-04-25 21:09:53 40 0

原创 朴素贝叶斯相关基础知识

文章目录判别模型与生成模型判别模型生成模型先验概率、条件概率、后验概率朴素贝叶斯法建模后验概率P(Y=ck∣X=x)P(Y=c_k| X = x)P(Y=ck​∣X=x)最大化的解释朴素贝叶斯法的参数估计极大似然估计算法流程贝叶斯估计优缺点 判别模型与生成模型 机器学习或者统计学习的方法可以分为...

2020-04-22 21:01:38 129 0

原创 【线性回归】面向新手的基础知识

文章目录线性回归建模线性回归损失函数、代价函数、目标函数线性回归模型的求解方法1. 梯度下降法2. 最小二乘法带有正则化项的回归模型回归任务的评价指标1. 平均绝对误差(MAE)2. 均方误差(MSE)3. 均方根误差(RMSE)4. 决定系数(R2R^2R2) 线性回归建模 首先考虑一个情景,假...

2020-04-21 21:55:15 43 0

提示
确定要删除当前文章?
取消 删除