机器学习与数据挖掘
文章平均质量分 85
机器学习的相关理论总结
Weiyaner
希望在搜索,推荐,NLP领域持续学习,持续产出。
《鸡声茅店月,人迹板桥霜》
展开
-
模型线上线下一致性问题
线下可能很好,但是线上表现并不如意,对于这种线上线下一致性问题,是机器学习模型在上线之后经常遇到的问题。围绕着这个问题,从多个角度来考虑该问题。原创 2022-09-08 18:26:59 · 2733 阅读 · 0 评论 -
作为分类算法,逻辑回归是如何和回归扯上关系的
今天就逻辑回归和回归问题之间的关系做个梳理,下次再遇到谁扯逻辑回归如何如何做回归,我直接丢。。。仅个人拙见。文章目录1 何为回归?何为分类?2 回归问题在拟合什么?分类问题又在拟合什么?2.1 回归的拟合问题2.2 分类的拟合问题3 逻辑回归与回归的关系4 逻辑回归为啥是分类算法?5 逻辑回归如何用于分类?5.1 Logistic 分布函数5.2 LR模型5.3 模型求解6 逻辑回归和线性回归的比较1 何为回归?何为分类?回归和分类从宏观意义上见就是一类问题,给定输入x,通过模型F,输出结果y。二原创 2022-01-21 20:14:24 · 1276 阅读 · 0 评论 -
机器学习常见问题总结
机器学习面试常考问题汇总原创 2022-01-12 22:37:37 · 2677 阅读 · 3 评论 -
机器学习/深度学习常用优化方法总结
随机梯度下降在机器学习/深度学习中的重要作用不言而喻,甚至其他的许多优化方法都是根据随机梯度下降法改进而来。L(θ)=M1i=1∑ML(f(xi,θ),yi)∇L(θ)=M1i=1∑M∇L(f(xi,θ),yi))θi+1=θi−α∇L(θt)由于经典的梯度下降法在每次对模型参数进行更新时,需要遍历所高的训练数据。...原创 2022-01-11 15:25:23 · 1208 阅读 · 0 评论 -
softmax函数用于多分类问题的解读
在多分类问题中,我们常常使用softmax作为输出层函数。下面来介绍softmax函数。1 softmax数学形式:通过数学表达式,我们可以看到,softmax函数将向量映射为一个概率分布(0,1)对于n维向量最后映射为n维的概率分布。σ(x)i=exp(xi)∑j=1nexp(xj)\sigma(x)_i=\frac{exp(x_i)}{\sum_{j=1}^{n}exp(x_j)}σ(x)i=∑j=1nexp(xj)exp(xi)在n分类问题中,神经网络的输出元有n个,将n个输出值作为原创 2022-01-05 23:17:29 · 2508 阅读 · 1 评论 -
GBDT和xgboost原理、比较分析、面试总结
1 前向分步对于加法模型:f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)f(x)=m=1∑Mβmb(x;γm)其中, b(x;γm)\mathrm{b}(\mathrm{x;\gamma_m})b(x;γm) 为基函数, γ m\gamma_\mathrm{~m}γ m 为基函数的参数, βm\beta \mathrm{m}βm 为基函数的系数。损失函数为:min原创 2021-12-29 22:08:50 · 2169 阅读 · 0 评论 -
常用损失函数及其应用场景
在机器学习中,主要有两大任务,分别是分类和回归任务,下面针对这两大场景分别介绍常用的损失函数。损失函数一般使用L(y,f(x))L(y,f(x))L(y,f(x))表示,代表预测值和实际值的偏差程度,一般是追求越小越好。此外,再看一些定义:损失函数:用于衡量’单个样本点’预测值与实际值的偏离程度。风险函数:训练过程中的模型,对已知训练数据的计算。可以理解为是train过程的loss。用于衡量’样本点平均意义’下的好坏,就是说要除以batch_size。经验风险:指预测结果和实际结果的差别。结原创 2021-12-29 20:57:13 · 4126 阅读 · 0 评论 -
数据集打乱顺序代码(自定义shuffle)
直接可以用def Shuffle(self, x, y,random=None, int=int): """x, random=random.random -> shuffle list x in place; return None. Optional arg random is a 0-argument function returning a random float in [0.0, 1.0); by default, the standard random.ran原创 2021-12-06 11:34:16 · 1706 阅读 · 0 评论 -
ARMA,ARIMA,SARIMA时序数据预测(附代码讲解)
1 SARIMA简介Seasonal Autoregression Moving Average model, SARIMA季节自回归移动平均模型。SARIMA(p,d,q,s)AR(p)自回归模型,即时间序列回归到自身。基本的假设是,当前的序列值依赖于它以前的值,有一些延迟(或几个延迟)。模型中的最大滞后被称为p。为了确定初始p,你需要查看PACF图并找到最大的显著滞后,之后大多数其他滞后变得不重要。MA(q)移动平均模型。在不深入太多细节的情况下,这个模型模拟了时间序列的误差,同样假原创 2021-11-29 11:17:10 · 6919 阅读 · 1 评论 -
通俗易懂方差(Variance)和偏差(Bias)
看了沐神的讲解,恍然大悟,b站可以不刷,但沐神一定要看。在统计模型中,通过方差和偏差来衡量一个模型。1 方差和偏差的概念偏差(Bias):预测值和真实值之间的误差方差(Variance):预测值之间的离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。2 均方误差(Mean-Square error,MSE)在统计模型评价中时,评价一个点估计的坏时,通常使用点估计y^\hat{y}y^和参数真值yyy的距离,最常用的函数是距离的平方,由于估计量y^\hat{y}y^具有随机性,原创 2021-11-19 19:57:08 · 24279 阅读 · 2 评论 -
条件随机场(CRF)——3 命名实体识别(NER)
条件随机场经常被用于序列标注,其中包括词性标注,分词,命名实体识别\color{red}词性标注,分词,命名实体识别词性标注,分词,命名实体识别等领域。(yes我会标红了)1 NER任务介绍更多介绍看这里对以下NER任务,进行命名实体识别我 去 北 京其本质上就是一个序列标注任务,根据BIESO标注方案,可以对于每一个字进行打标签序号标注含义0B实体的开端1I实体中间2E实体的结尾3S单个字作为实体4O不作为任何实体所以原创 2021-11-17 17:47:44 · 1890 阅读 · 0 评论 -
条件随机场(CRF)——2 CRF、HMM、LR的比较
1 HMM & CRF1.1 HMM是生成模型,CRF是判别模型。生成式模型根据大量的标注数据,计算联合分布,在通过联合分布计算条件概率进行分类,这就是生成模型的基本思想,而判别式是直接对条件概率进行建模。CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型。HMM使用隐含变量生成可观测状态,其生成概率有标注集统计得到,是一个生成模型;通过在一个标注集上进行统计,我们很容易得到一个概率转移矩阵,即任意词性A后紧邻任意词性B的概率都可以被统计出来。 然原创 2021-11-17 17:42:18 · 672 阅读 · 0 评论 -
HMM隐马尔科夫模型(附维特比代码)
背景知识:马尔科夫模型1 马尔科夫的局限性在一些情况下,我们并不能直接得到观测的结果,比如在天气系统中,我们不能直接得到天气的状态,但是我们有一堆蚂蚁,可以从蚂蚁的行为状态找到天气变化的关系规律。此时我们就有两组状态:观察的状态(即蚂蚁的行为状态)隐藏的状态(天气状态)在这种情况下,我们希望设计出一个模型,在不能直接观测到天气状态的情况下,通过观测蚂蚁的状态,预测出下一天气状态。这就是隐马尔可夫模型(hidden Markov Model)的思想。2 隐马尔可夫模型1 介绍隐马尔可夫模型原创 2021-11-16 21:37:32 · 1578 阅读 · 0 评论 -
马尔可夫模型(Markov)
1 确定性系统和不确定性系统对于一个确定性系统,多个状态构成了一个状态序列,每一个状态之间的关系都是确定的,根据当前状态,就可以确定下一个状态。比如红绿灯的变化状态。与确定性系统相对应的是不确定系统,例如,每天的天气状态变化就是一个不确定性系统,根据当前的刮风天气,我们无从得知下一刻的天气是刮风还是打雷还是下雨。这就引出了我们的马尔可夫过程。2 马尔可夫过程在上面的天气系统中,有刮风,下雨,阴天三种状态,我们希望找到这个简单系统的天气变化的一定规律,为了简化问题,常常做出以下假设:马尔科夫假设原创 2021-11-16 17:07:53 · 12591 阅读 · 0 评论 -
样本不平衡及处理方法
文章目录1 什么是数据不平衡?2 数据不平衡的解决方法2.1 采样2.2采用k折交叉验证法2.3 采用SVM,决策树算法2.4 使用集成学习 在机器学习和数据挖掘领域,数据不平衡问题是我们拿到数据之后优先需要考虑的问题,如果直接对不平衡的数据进行建模,得到的模型往往也是不具备良好的泛化性的。1 什么是数据不平衡? 数据不平衡就是指:初始数据的各类别分布不均匀,比如正类负类的比例是99:1。那么对于模型而言,只要它只判定为正,也有99%的正确率。由此就出现了数据不平衡带来的问题。所以在算法选择之前原创 2021-06-16 18:48:27 · 1411 阅读 · 0 评论 -
机器学习中的几种回归方法总结
回归是在建模过程中用于分析变量之间的关系、以及变量是如何影响结果的一种分析方法。 常见的五种回归方法:线性回归(linear regression)、多项式回归(ploynomia regressionl)、岭回归(ridge regression)、Lasso回归和弹性回归网络1 线性回归 线性回归是指全部由线性变量组成的回归模型,例如单变量线性回归模型Y=a∗X+bY=a∗X+bY=a∗X+b 多变量线性回归模型:Y=a1∗X1+a1∗X2+a3∗X3+.....+an∗Xn+bY转载 2021-06-13 13:10:18 · 5428 阅读 · 0 评论 -
EM(最大期望)
更多机器学习方法总结请到我这个博客链接文章目录最大期望算法(Expectation-Maximization,EM)10.1 EM算法10.1.1 EM算法与“鸡生蛋蛋生鸡问题”10.1.2 EM求解思想及算法流程10.1.3 EM算法的导出 (为什么可以实现极大似然估计)10.1.5 EM在非监督学习的应用10.2 EM算法的收敛10.3 高斯混合模型(Gaussian mixture model, GMM)(EM的重要应用)10.3.1 高斯混合模型介绍10.3.2 高斯混合模型参数估计的EM算法10原创 2021-06-11 10:09:22 · 563 阅读 · 0 评论 -
集成学习全面总结(boosting,bagging,stacking)
更多机器学习方法总结请到我这个博客链接文章目录9 集成学习(Ensemble Learning)9.0 集成学习的分类9.1 Boosting9.1.1 Adaboost(Adaptive boost)9.1.2 提升树(Adaboost+决策树)9.1.3 梯度提升(Gradient Boosting)9.1.4 GBDT(Gradient Boosting+CART)9.1.5 XGBDT9.2 Bagging(Boostrap aggregation,自举汇聚法)9.2.1 Bootstrap sa原创 2021-06-11 10:06:52 · 445 阅读 · 0 评论 -
支持向量机
更多机器学习方法总结请到我这个博客链接文章目录支持向量机(support vector machines,SVM)8.1 支持向量机分类8.1 线性可分支持向量机8.1.1 定义8.1.2 函数间隔和几何间隔8.1.3 (几何距离)间隔最大化8.1.4 学习的对偶算法8.2 线性支持向量机和软间隔最大化8.2.1 线性支持向量机8.2.2 学习的对偶算法8.2.3 合页损失函数8.3 非线性支持向量机和核函数8.3.1 核技巧8.3.2 正定核8.3.3 非线性支持向量机的学习算法8.4 序列最小优化算法原创 2021-06-11 10:02:46 · 207 阅读 · 0 评论 -
逻辑回归与最大熵模型
更多机器学习方法总结请到我这个博客链接文章目录7 逻辑回归与最大熵模型7.1 逻辑斯蒂回归(logistic regression )7.1.0 和线性回归比较7.1.1 logistic 分布7.1.2 二项逻辑斯谛回归模型7.1.3 模型参数估计7.1.4 逻辑回归模型优缺点7.2 最大熵模型(MEM)7.2.1 最大熵原理7.2.2 最大熵模型定义7.2.3 最大熵模型的学习7.2.4 对偶函数的极大化等价于最大熵模型的极大似然估计7.3 模型学习的最优化方法7.3.1 改进的迭代尺度法(impro原创 2021-06-11 09:52:47 · 631 阅读 · 2 评论 -
决策树全面讲解
更多机器学习方法总结请到我这个博客链接文章目录6 决策树(Decision Tree)6.1 决策树模型与学习6.1.1 决策树模型6.1.2 决策树与if-then规则6.1.3 决策树与条件概率分布6.1.4 决策树学习6.2 特征选择6.2.1 信息增益(ID3)6.2.2 信息增益比(C4.5)6.2.3 Gini指数(CART法)6.3 ID3算法(决策树的生成)6.3.1 思想6.3.2 ID3算法流程:6.3.3 ID3不足之处:6.4 C4.5算法(决策树的生成)6.4.1 二元分割(连续原创 2021-06-11 09:45:01 · 1578 阅读 · 2 评论 -
朴素贝叶斯法
更多机器学习方法总结请到我这个博客链接文章目录朴素贝叶斯法(Naive Bayesian Model,NBM)1 概率公式复习2 朴素贝叶斯2.1 条件独立性假设2.2 朴素贝叶斯分类器(公式推导)2.3 后验概率最大化准则:2.4 朴素贝叶斯分类器特点3 朴素贝叶斯法的参数估计3.1 极大似然估计(Maximum Likelihood Estimate,MLE)3.2 贝叶斯估计朴素贝叶斯法(Naive Bayesian Model,NBM) 贝叶斯分类算法是原创 2021-06-11 09:42:20 · 480 阅读 · 0 评论 -
K近邻法(KNN)
K近邻法(k-nearest neighbor,k-NN)1 K近邻定义1、一句话定义: 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。2、三要素:距离度量,k值的选取,分类决策规则的选取。距离度量一般采用欧氏距离,也可以是其他距离(Lp距离)k值选取将会对结果产生巨大的影响。如果k值较小,整体模型变的复杂,容易发生过拟合;如果k值过大,不相关的点也对预测产生影响,导原创 2021-06-11 09:23:47 · 1993 阅读 · 0 评论 -
感知机模型详细总结
一文了解感知机模型,更多机器学习方法总结请移步至我的这篇博客文章目录感知机(Perception)1 感知机模型2 感知机模型的几何解释3 感知机模型的损失函数4 感知机模型的对偶形式感知机(Perception)感知机1957年由Rosenblatt提出,是神经网络与支持向量机的基础。感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和–1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。导入基于误分原创 2021-06-11 08:41:20 · 1012 阅读 · 0 评论 -
机器学习方法导论
本文是机器学习的第一节,导论。带你系统的了解机器学习的相关基础知识,更多总结请见我的这篇博客文章目录机器学习方法概论1 机器学习方法的分类1.1 监督学习1.2 无监督学习1.3 半监督学习1.4 强化学习1.5 其他分类2 机器学习三要素3 模型评估与模型选择3.1 模型评估指标 (分类、回归、聚类和排序指标)3.2 过拟合3.3 正则化(模型选择方法)3.4 交叉验证(模型选择方法)4 泛化能力5 生成模型和判别模型5.1 生成模型5.2 判别模型5.3 生成模型和判别模型比较机器学习方法概论1原创 2021-06-11 08:35:49 · 357 阅读 · 0 评论 -
机器学习与数据挖掘
总结1.1机器学习和数据挖掘的关系机器学习是数据挖掘的重要工具。数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。数据挖掘试图从海量数据中找出有用的知识。大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析原创 2021-06-06 18:46:03 · 18838 阅读 · 2 评论