机器学习基础
文章平均质量分 60
VariableX
这个作者很懒,什么都没留下…
展开
-
LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子)
文章目录一、LightGBM 原生接口重要参数训练参数预测方法绘制特征重要性分类例子回归例子二、LightGBM 的 sklearn 风格接口LGBMClassifier基本使用例子LGBMRegressor基本使用例子三、LightGBM 调参思路四、参数网格搜索与 xgboost 类似,LightGBM包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:LightGBM 相关知识理解一、LightGBM 原生接口重要参数原创 2020-07-10 17:16:12 · 68118 阅读 · 14 评论 -
XGBoost 重要参数、方法、函数理解及调参思路(附例子)
文章目录一、xgboost 原生接口重要参数训练参数预测函数绘制特征重要性分类例子回归例子二、xgboost 的 sklearn 风格接口XGBClassifier基本使用例子XGBRegressor基本使用例子三、xgboost 调参思路xgboost 包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:XGBoost算法的相关知识一、xgboost 原生接口重要参数1,booster用于指定弱学习器的类型,默认值为 ‘原创 2020-07-09 21:27:46 · 50798 阅读 · 9 评论 -
sklearn中GBDT的一些参数、属性、方法的理解
文章目录GBDT 分类器引入重要参数losslearning_ratesubsamplen_estimatorscriterionmax_depthmin_samples_leafmin_samples_splitmax_featuresverbose重要属性重要方法GBDT 回归器本文主要是sklearn中GBDT的一些参数、属性、方法的理解,如果需要了解基础的理论知识,可以看看之前发表的文章:梯度提升树(GBDT)相关知识。GBDT 分类器引入from sklearn.ensemble impo原创 2020-07-08 10:41:32 · 9307 阅读 · 3 评论 -
sklearn 随机森林(分类器、回归器)的重要参数、属性、方法理解
文章目录随机森林分类器引入重要参数1,n_estimators2,criterion3,max_depth4,min_samples_leaf5,min_samples_split7,max_features8,class_weight9,max_leaf_nodes10,oob_score11,verbose重要属性重要方法随机森林回归器随机森林分类器引入from sklearn.ensemble import RandomForestClassifier# 全部参数RandomForestCl原创 2020-07-07 20:56:26 · 24168 阅读 · 0 评论 -
sklearn 决策树(分类树、回归树)的 重要参数、属性、方法理解
文章目录决策分类树引入重要参数1,criterion2,splitter3,max_depth4,min_samples_leaf5,min_samples_split6,max_features7,class_weight重要属性重要方法决策回归树决策分类树引入from sklearn.tree import DecisionTreeClassifier# 全部参数DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=原创 2020-07-07 19:43:34 · 4347 阅读 · 0 评论 -
sklearn 中的线性回归、岭回归、Lasso回归参数配置及示例
文章目录线性回归引入重要参数重要属性重要方法例子岭回归引入重要参数重要属性重要方法示例Lasso 回归引入重要参数重要属性重要方法示例本文主要讲一些sklearn中回归模型的使用,如果需要了解相关理论,请查阅:【线性回归】面向新手的基础知识线性回归引入from sklearn.linear_model import LinearRegression# 默认参数如下:LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_原创 2020-07-06 19:59:08 · 16971 阅读 · 3 评论 -
潜在狄利克雷分布(LDA)初探
文章目录多项式分布与狄利克雷分布多项式分布狄利克雷分布潜在狄利克雷分布模型文本生成模型定义LDA 与 PLSA 异同潜在狄利克雷分布(Latent Dirichlet Allocation, LDA),是一种无监督学习算法,用于识别文档集中潜在的主题词信息。在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量 k 即可。对于每一个主题均可找出一些词语来描述它。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,原创 2020-05-27 16:39:31 · 1387 阅读 · 0 评论 -
概率潜在语义分析(pLSA) 相关知识
文章目录生成模型共现模型模型性质共现模型表示PLSA算法概率潜在语义分析(PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督方法。PLSA 模型假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。该模型中的话题是不可直接观测到的,是潜在的隐变量。整个模型表示文本生成话题,话题生成单词,从而得到单词—文本共现数据的过程。生成模型假设有M个单词集合W={w1,w2.…,wM}W=\{w_1,w_2.\ldots,w_M\}W={w1,w2.…,wM},N个文本集合D={d1,d2原创 2020-05-26 19:01:40 · 864 阅读 · 0 评论 -
潜在语义分析(LSA)相关知识
文章目录单词-文本矩阵话题向量空间文本在话题向量空间中的表示从单词向量空间到话题向量空间的线性变换潜在语义分析算法矩阵奇异值(SVD)分解算法非负矩阵(NMF)分解算法基本思想损失函数(1)平方损失(2)散度损失函数迭代学习算法(1)平方损失函数更新法则(2)散度损失函数的更新法则算法实现潜在语义分析(latent semantic analysis, LSA)是一种无监督方法,主要用于文本的话题分析。其特点是通过对单词-文本矩阵进行进行奇异值分解,从而得到话题向量空间和文本在话题向量空间中的表示。单词原创 2020-05-26 17:52:20 · 717 阅读 · 0 评论 -
奇异值分解(SVD)相关知识
文章目录奇异值分解的主要思想主要性质计算过程几何解释奇异值分解形式奇异值分解的主要思想奇异值(singular value decomposition, SVD)是一种矩阵因子分解方法。其主要思想是:任意一个m×nm\times nm×n 矩阵都可以表示为三个矩阵的乘积(因子分解)形式,即:A=UΣVTA=U\Sigma V^\mathrm TA=UΣVTUΣVTU\Sigma V^\mathrm TUΣVT称为矩阵A的奇异值分解,并不要求A为方阵。其中 UUU 是mmm 阶正交矩阵,VVV原创 2020-05-26 17:46:44 · 626 阅读 · 0 评论 -
LightGBM 相关知识理解
lightGBM 简介GBDT是个经典的模型,主要是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点,常被用于多分类、点击率预测、搜索排序等任务。在LightGBM提出之前,还有个GBDT的高效实现:XGBoost。XGBoost是属于boosting家族,也是GBDT算法的一个工程实现。 在模型的训练过程中是聚焦残差,在目标函数中使用了二阶泰勒展开并加入了正则,在决策树的生成过程中采用近似分割的方式(可以理解为分桶的思路),选出一些候选的分裂点,然后再遍历这些较少.原创 2020-05-20 18:45:50 · 3238 阅读 · 0 评论 -
XGBoost算法的相关知识
文章目录背景定义损失函数确定叶节点的输出树的分裂基于分桶的划分策略总结背景讲XGBoost之前,先引入一个实际问题,即预测一家人每个人玩游戏的意愿值:如果我们用XGBoost解决这个问题,步骤是:首先要训练出来第一棵决策树, 预测了一下小男孩想玩游戏的意愿是2, 然后发现离标准答案差一些,再训练出第二棵决策树, 预测了一下小男孩想玩游戏的意愿是0.9, 最后两个相加就是最终的答案2.9。也就是说,XGBoost是把训练出来的弱分类结果进行累加当作最终的结论。XGBoost的思想和GBDT有相似之处原创 2020-05-15 21:09:08 · 3371 阅读 · 0 评论 -
梯度提升树(GBDT)相关知识
文章目录前向分步算法负梯度拟合损失函数分类问题回归问题回归问题分类二分类多分类正则化优缺点优点缺点GBDT(Gradient Boosting Decision Tree)是一种可用于处理分类和回归任务的机器学习集成算法。GBDT是属于Boosting族的算法,因此也是采用分步构建模型的方法。之前到AdaBoost训练弱分类器关注的是那些被分错的样本,AdaBoost每一次训练都是为了减少错误分类的样本。而GBDT训练弱分类器关注的是残差,也就是上一个弱分类器的表现与完美答案之间的差距,GBDT每一次训原创 2020-05-15 21:05:02 · 569 阅读 · 0 评论 -
Adaboost算法和提升树算法
AdaBoost,是英文"Adaptive Boosting"(自适应增强),它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。AdaBoost算法输入:训练数据集KaTeX parse error: Undefined control sequence: \cal at position 51: …_N)\}, x_i\in \̲c̲a̲l̲ ̲X原创 2020-05-15 21:01:07 · 458 阅读 · 0 评论 -
分类与回归树(CART)相关知识
文章目录CART算法CART回归树生成CART分类树的生成连续值处理:离散值处理:CART 剪枝CART算法分类与回归树(CART)是应用广泛的算法,同样由特征选择、树的生成及剪枝组成,可以用于解决分类和回归问题。ID3算法、C4.5算法分别使用了信息增益、信息增益比来选择特征,他们都使用了包含大量的对数运算的熵模型来计算样本纯度。而CART算法使用基尼系数来代替信息增益(比),基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。CART决策树的生成过程是递原创 2020-05-13 08:32:21 · 835 阅读 · 0 评论 -
基于ID3、C4.5算法的决策树相关知识
文章目录基础概念熵条件熵信息增益信息增益比决策树生成ID3生成算法决策树剪枝C4.5生成算法基础概念熵离散型变量X的概率分布是P(X)。它的熵H(X) or H(P){H(X) \; or \; H(P)}H(X)orH(P)越大,代表越均匀、越混乱、越不确定。熵的公式如下:H(P)=−∑x∈XP(x)logP(x){H(P)} = {- \sum_{x \in X}P(x) \log P(x)}H(P)=−x∈X∑P(x)logP(x)定义0log0=00\log0=00log原创 2020-05-13 08:27:37 · 355 阅读 · 0 评论 -
基于KD树的K近邻算法(KNN)算法
文章目录KNN 简介KNN 三要素距离度量k值的选择分类决策规则KNN 实现1,构造kd树2,搜索最近邻3,预测用kd树完成最近邻搜索K近邻算法(KNN)算法,是一种基本的分类与回归算法,本文只讨论解决分类问题的KNN算法。KNN 简介思想:给定一个训练数据集,对于新输入的样本,在训练集中找到与该样本最邻近的k个已知样本,这k个已知样本的多数属于某个类别,那么新输入的样本就属于这个类别。如...原创 2020-05-07 15:53:55 · 3004 阅读 · 0 评论 -
逻辑斯蒂回归原理(二分类、多分类)
文章目录逻辑斯蒂分布二项逻辑回归模型模型参数估计多项逻辑斯蒂回归逻辑斯蒂分布逻辑斯蒂分布假设X是联系随机遍历,且分布函数、密度函数如下:F(x)=P(X⩽x)=11+exp(−(x−μ)/γ)f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2F(x)=P(X\leqslant x)=\frac{1}{1+\exp(-(x-\mu)/\gamma)} \\f(x) =...原创 2020-05-07 10:26:17 · 4179 阅读 · 0 评论 -
最大熵模型相关知识
预备知识熵离散型变量X的概率分布是P(X)。它的熵H(X) or H(P){H(X) \; or \; H(P)}H(X)orH(P)越大,代表越均匀、越混乱、越不确定。熵的公式如下:H(P)=−∑x∈XP(x)logP(x){H(P)} = {- \sum_{x \in X}P(x) \log P(x)}H(P)=−x∈X∑P(x)logP(x)当X服从均匀分布时,熵最大...原创 2020-05-06 16:12:09 · 779 阅读 · 0 评论 -
支持向量机器—SMO算法
文章目录引入SMO的背景两个变量二次规划求解方法选择两个变量的方法第一个变量选择第二个变量选择计算阈值b和差值EiE_iEiSMO算法参考文章:引入SMO的背景前面的文章提到,SVM的学习问题可以转成下面的凸二次规划的对偶问题:minα 12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαis.t. ∑i=1Nαiyi=00≤αi≤C\min\limits_{...原创 2020-05-05 22:21:03 · 389 阅读 · 0 评论 -
SVM 核函数相关知识
前面的文章讲述的都是将SVM用于线性可分或者近似线性可分的情况,对于非线性可分的情况,正是本文要讨论的内容。核技巧线性不可分问题是指不能用一个超平面将数据划分成两个部分,如下图所示:但是如果我们对原始数据进行非线性变换,则有可能将原始数据映射到能够线性可分的空间中:对于上面这样的数据,如何实现这样的变换?设原始特征空间为:X⊂R2,x=(x(1),x(2))T∈X\mathcal X...原创 2020-05-03 15:08:49 · 573 阅读 · 0 评论 -
软间隔最大化SVM
软间隔最大化SVM假设有训练集:T={(x1,y1),(x2,y2),...,(xm,ym)}T=\{(x_1, y_1),(x_2, y_2),...,(x_m, y_m)\}T={(x1,y1),(x2,y2),...,(xm,ym)}其中yi∈{−1,+1}y_i \in \{-1, +1\}yi∈{−1,+1}。再假设数据集线性不可分,即数据中存在一些异常值(离群点...原创 2020-05-03 15:05:34 · 437 阅读 · 0 评论 -
线性可分支持向量机
一般的,当训练样本线性可分的时候,如下图所示:可以找到无数个划分超平面。而线性可分支持向量机利用间隔最大化来求最优划分超平面,此时解是唯一的。通过间隔最大化或者对应的凸二次规划问题学习到的分离超平面为:w∗⋅x+b∗=0w^*\cdot x+b^*=0w∗⋅x+b∗=0对应的决策函数为:f(x)=sign(w∗⋅x+b∗)f(x)=sign(w^*\cdot x+b^*)f(x...原创 2020-05-01 18:35:30 · 1024 阅读 · 2 评论 -
【统计学习方法】感知机笔记
文章目录感知机模型感知机损失函数感知机参数学习学习算法的原始形式学习算法的对偶形式感知机是用于二分类的线性模型,输入是实例的特征,输出是类别。感知机模型目标是找到将数据线性划分的分离超平面。感知机模型输入空间:X⊆Rn\mathcal X\sube \bf R^nX⊆Rn输出空间:Y={+1,−1}\mathcal Y=\{+1,-1\}Y={+1,−1}决策函数:f(x)=sign(w...原创 2020-04-30 20:52:59 · 184 阅读 · 0 评论 -
条件随机场(CRF)相关理论知识
文章目录无向概率图模型条件随机场CRF 实例线性链条件随机场的简化形式线性链条件随机场的矩阵形式linear-CRF的三个基本问题1,概率计算问题前向后向概率概述前向后向概率计算linear-CRF的期望计算2,学习问题梯度下降法拟牛顿法3,预测问题维特比算法解码思路维特比算法流程linear-CRF模型维特比算法实例参考文章:无向概率图模型无向图模型的边没有方向,仅仅代表两个事件有关联。...原创 2020-04-29 22:36:28 · 534 阅读 · 0 评论 -
EM算法应用:k均值聚类(k-means)和高斯混合模型(GMM)
上一篇文章,我们讲的期望最大化(EM)算法是一种非常强大的算法,应用于数据科学的许多场景。k-means是该算法非常简单且易于理解的一个应用。k-means聚类k均值聚类算法(k-means)将样本集合划分为k个子集,也就是将n个样本划分到k个类别中,每个样本到类别的中心距离最近。EM角度的理解如果从EM角度来理解的话,k均值聚类算法的隐变量是聚类的中心,模型的参数是每个数据点属于哪个分类...原创 2020-04-27 11:00:53 · 3116 阅读 · 0 评论 -
统计学习方法 第九章笔记: EM 算法
文章目录三硬币模型EM推导背景EM算法步骤EM算法的导出EM算法的收敛性如果概率模型都是观测变量,那么给定数据就可以用极大似然估计法或者贝叶斯估计发去获得模型。但是,有时候概率模型既有观测变量,又有隐变量或者潜在变量,这样就不能用这些估计方法了。本文要介绍的EM算法可以解决这类问题。三硬币模型为了更好的描述EM算法,先提出一个实际的问题。问题描述如下:假设有3枚硬币,分别记作A,B和C。...原创 2020-04-25 21:09:53 · 386 阅读 · 0 评论 -
朴素贝叶斯相关基础知识
文章目录判别模型与生成模型判别模型生成模型先验概率、条件概率、后验概率朴素贝叶斯法建模后验概率P(Y=ck∣X=x)P(Y=c_k| X = x)P(Y=ck∣X=x)最大化的解释朴素贝叶斯法的参数估计极大似然估计算法流程贝叶斯估计优缺点判别模型与生成模型机器学习或者统计学习的方法可以分为判别模型(非概率模型)和生成模型(概率模型)。判别模型常见的形式为 y = f(x) ,建立目标变...原创 2020-04-22 21:01:38 · 435 阅读 · 0 评论 -
【线性回归】面向新手的基础知识
文章目录线性回归建模线性回归损失函数、代价函数、目标函数线性回归模型的求解方法1. 梯度下降法2. 最小二乘法带有正则化项的回归模型回归任务的评价指标1. 平均绝对误差(MAE)2. 均方误差(MSE)3. 均方根误差(RMSE)4. 决定系数(R2R^2R2)线性回归建模首先考虑一个情景,假设我们希望用线性回归预测房屋的售价。一般网上公开的房价预测数据集都至少包含房屋的面积、厅室数量等特征以...原创 2020-04-21 21:55:15 · 516 阅读 · 0 评论