Machine Learning
文章平均质量分 79
大数据AI
专注于IT技术分享
展开
-
【机器学习理论基础】回归模型定义和分类
回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量YYY与影响它的自变量XiX_iXi之间的回归模型,衡量自变量XiX_iXi对因变量YYY的影响能力的,进而可以用来预测因变量Y的发展趋势。原创 2024-07-10 15:26:51 · 442 阅读 · 0 评论 -
【机器学习】一文看尽 Linear Regression 线性回归
FrancisGalton,英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即regression回归分析是一种统计工具,它利用两个或两个以上变量之间的关系,由一个或几个变量来预测另一个变量。自变量只有一个时,叫做一元线性回归,hxb0b1xhxb0b1。原创 2024-05-11 16:17:02 · 762 阅读 · 0 评论 -
LSTM(长短期记忆网络)
在上篇文章一文看尽RNN(循环神经网络)中,我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。Long Short Term Memory networks(以下简称L...原创 2020-03-20 20:06:05 · 1654 阅读 · 0 评论 -
Spark ML机器学习库评估指标示例
本文主要对 Spark ML库下模型评估指标的讲解,以下代码均以Jupyter Notebook进行讲解,Spark版本为2.4.5。模型评估指标位于包org.apache.spark.ml.evaluation下。模型评估指标是指测试集的评估指标,而不是训练集的评估指标1、回归评估指标RegressionEvaluatorEvaluator for regression, whic...原创 2020-03-03 21:42:15 · 1453 阅读 · 0 评论 -
监督学习算法模型评估实例(sklearn版)
sklearn机器学习包中的模型评估指标都在包sklearn.metrics下;链接地址:https://scikit-learn.org/stable/modules/classes.html?highlight=metrics#module-sklearn.metrics这里我们选择几个常用的指标进行展示,sklearn的版本为0.22.1。混淆矩阵(confusion_matrix)...原创 2020-03-03 11:51:37 · 568 阅读 · 0 评论 -
监督学习算法模型评估
在分类模型评判的指标中,常见的方法有如下三种:混淆矩阵(也称误差矩阵,Confusion Matrix)ROC曲线AUC值在回归模型评价指标中,常用的方法有如下几种:MSERMSEMAER2混淆矩阵(Confusion matrix)在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。混淆矩阵的定义混淆矩阵是ROC曲...原创 2020-03-03 11:44:21 · 2158 阅读 · 0 评论 -
梯度下降法
梯度下降法(Gradient Descent,GD)是一种常见的一阶(first-order)优化方法,是求解无约束优化问题最简单、最经典的方法之一。,在最优化、统计学以及机器学习等领域有着广泛的应用。所谓的一阶方法就是仅使用目标函数的一阶导数,不利用其高阶导数。那什么是无约束优化问题呢?举个例子,在一元函数法f(x)f(x)f(x)的图像中,求无约束最优化问题,即不对定义域或值域做任何限制的...原创 2020-03-01 12:13:39 · 461 阅读 · 0 评论 -
普通最小二乘法的推导证明
在统计学中,普通最小二乘法(Ordinary Least Squares,OLS)是一种用于在线性回归模型中估计未知参数的线性最小二乘法。 OLS通过最小二乘法原则选择一组解释变量的线性函数的参数:最小化给定数据集中观察到的因变量(被预测变量的值)与预测变量之间残差的平方和。一元线性回归求解过程我们先以一元线性模型为例来说明。假设有一组数据X={(x1,y1,⋯ ,(xm,ym)}X=\{(...原创 2020-02-29 19:57:55 · 3807 阅读 · 1 评论 -
最小二乘法简介
最小二乘法简介最小二乘法(Least Squares)是回归分析中的一种标准方法,它是用来近似超定系统(Overdetermined System)答案的一种方法。超定系统是指数学中的一种概念,一组包含未知数的方程组中,如果方程的数量大于未知数的数量,那么这个系统就是一个超定系统(超定方程组)。超定系统(超定方程组)一般是无解的,只能求近似解。而最小二乘法就是求超定方程组近似解的一种方法。举个...原创 2020-02-29 16:04:01 · 6542 阅读 · 0 评论 -
精准率和召回率
预测为真且实际为真/预测为真:精确率(查准) 预测为真且实际为真/实际为真:召回率(查全) 实际上非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是 P=TPTP+FPP=TPTP+FPP = \frac{TP}{TP+FP}...原创 2018-06-26 09:10:08 · 703 阅读 · 0 评论 -
PageRank 算法
算法来源 这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录的方法,即通过人工进行网页分类并整理出高质量的网站。那时 Yahoo 和国内的 hao123 就是使用的这种方法。 后来网页越来越多,人工分类已经不现实了。搜索引擎进入了 文本检索 的时代,即计算用户查询关键词与网页内容的相关程度来返回搜索结果。这种方法突破了数量的限制,但是搜索结果不是很好。因为总有某些网页原创 2018-01-28 00:10:15 · 857 阅读 · 0 评论 -
普通最小二乘法的推导证明
最小二乘法1、什么是最小二乘思想? 简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出,最小二乘也可用于拟合数据模型。2. 最小二乘法推导 我们以最简单的一元线性原创 2018-01-28 00:09:20 · 58530 阅读 · 1 评论 -
朴素贝叶斯原理小结
朴素贝叶斯算法原理小结From https://www.cnblogs.com/pinard/p/6069267.html在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树, KNN ,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数 Y=f(X)" role="presentatio原创 2018-01-28 00:08:37 · 514 阅读 · 0 评论 -
关于感知机学习算法的对偶形式
关于感知机学习算法的对偶形式 感知机之所以有两种形式,是因为采用的随机梯度下降,随机梯度下降每次迭代的是一个点,而不是整体,因此对于迭代的点有次数的概念。原创 2018-01-27 00:17:51 · 1242 阅读 · 0 评论 -
KNN 算法
k-近邻算法基于实例的学习k-近邻算法k-近邻算法k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。基于实例的学习1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学习器遇到一个新的查询实例,它分析原创 2018-01-27 00:19:52 · 190 阅读 · 0 评论 -
Linear Regression (线性回归)
Linear Regression线性回归简介回归的由来FrancisGalton,英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即regression.原创 2018-01-27 00:30:22 · 1131 阅读 · 0 评论 -
Logistic Regression (逻辑回归)
什么是逻辑回归Logistic 函数由来Logistic 常规步骤构造预测函数hDecision boundary决策边界Cost function代价函数成本函数Simplified cost function and gradient descent简化版代价函数及梯度下降算法Advanced optimization其他优化算法Multi-class classificati原创 2018-01-27 00:39:12 · 557 阅读 · 0 评论 -
Mulitilayer Preceptron Classifier (多层感知机)
一、感知机在机器学习中,感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法对损失函数进行最优化(最优化)。感知机的学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是原创 2018-01-27 18:54:13 · 1540 阅读 · 0 评论 -
Random Forest (随机森林)
1 什么是随机森林作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以原创 2018-01-27 19:10:05 · 3453 阅读 · 2 评论 -
Native Bayes Classifier (朴素贝叶斯分类)
一、定理简介转载自:贝叶斯推断及其互联网应用(一):定理简介一、什么是贝叶斯推断 贝叶斯推断是一种统计学方法,用来估计统计量的某种性质。 它是贝叶斯定理的应用。英国数学家托马斯贝叶斯在1793年发表的一篇论文中,首先提出了这个定理。 贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据原创 2018-01-27 19:02:30 · 969 阅读 · 0 评论 -
Regularization (正则化)
一、The Problem of Overfitting(过拟合问题)二、Cost Function(成本函数)三、Regularized Linear Regression(线性回归的正则化)四、Regularized Logistic Regression(逻辑回归的正则化) 正则化后,计算 θ0" role="presentation">θ0原创 2018-01-27 19:18:47 · 319 阅读 · 0 评论 -
Ensemble Learning (集成学习)
Ensemble Learning什么是集成学习?集成学习是机器学习中的一个重要分支,集成学习即ensemble learning,它是一种利用样本数据训练多个不同的弱分类器,然后将这些弱分类器整合成一个强大分类器的机器学习方法。集成学习可以解决什么问题?学习EL之前,我们要搞懂为什么要引入EL,即EL可以为我们解决什么问题,我们大多都遇过一些实际项目,由于环境的复杂、噪声原创 2018-01-28 00:07:48 · 602 阅读 · 0 评论 -
集成学习之 boosting
一Boosting算法基本思路二AdaBoost算法三Boosting Tree提升树四Grident Boosting Tree梯度提升树五AdaBoost多分类问题一、Boosting算法基本思路 提升方法基于这样 一种 思想: 对于 一个复杂 任务 来说, 将多个专家的判断进行适当的综合所得出的判断,要比 其中任何一个专家单独的判断好。 实际上,就是“ 三个原创 2018-01-27 00:13:34 · 416 阅读 · 0 评论