机器学习
文章平均质量分 73
nathan_deep
Keep Learning, Keep Fighting
展开
-
正则化方法 L1和L2
模型训练是围绕解决模型的欠拟合问题展开的,通过最小化损失函数来减小模型预测值与真实值之间的误差。因为数据集中总会有一些噪声,模型在拟合数据时可能会把噪声也拟合进来,导致模型过拟合。正则化是对损失函数的一种惩罚,即对损失函数中的某些参数进行限制。一般认为,参数值较小的模型比较简单,能更好地适应不同的数据集,泛化能力更强。正则化中最常用的正则项是L1范数和L2范数。L1范数是权重向量中各元素的...原创 2020-04-26 14:08:07 · 449 阅读 · 0 评论 -
EM算法原理总结
EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。EM算法的每次迭代由两步字组成:E步,求期望;M步,求极大。所以EM算法也称为期望极大算法(expectation maximization algorithm)。如果概率模型的变量都是观测变量,那么给定数据,可以直接使用极大似然估计法或者贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地用这些估计方法,只能...原创 2020-03-24 13:48:01 · 1200 阅读 · 0 评论 -
集成学习算法原理总结
目录1 Boosting2 Bagging和随机森林2.1 Bagging2.2 随机森林3 结合策略3.1 平均法3.2 投票法3.3 学习法- Stacking集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。 ...原创 2020-03-23 18:48:26 · 828 阅读 · 0 评论 -
提升方法算法原理总结
1 提升方法Adaboost算法1.1提升方法的基本思路对分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升发方法就是从弱学习算法出发,反复学习,得到一系列的弱分类器,然后组合这些弱分类器,构成一个强分类器。对于提升方法来说,有两个问题需要解决:1.在每一轮如何改变训练数据的权值或概率分布?AdaBoost的做法是...原创 2020-03-23 16:34:52 · 1092 阅读 · 0 评论 -
BP反向传播算法原理及公式推导
BP(Back Propagation)神经网络通常是指具有三层网路结构的浅层神经网络。反向传播算法这个网络只有3层,分别是蓝色的输入层、绿色的隐藏层和红色的输出层。假设给了m个训练样本,第i个输入输出对表示为:其中,x和y是3维向量。对于输入x,我们把g称作神经网络的预测(输出)值。对于每个训练样本来说,有:给定输入x,我们要找到使得预测值g与输出值y相等或比较...原创 2020-03-21 18:54:29 · 1827 阅读 · 0 评论 -
决策树详细笔记及python实现
决策树优点:模型具有可读性、分类速度快。决策树的学习包括3个步骤:特征选择、决策树的生成、决策树剪枝。1 决策树模型与学习决策树的学习本质上是从训练数据集中归纳出一组分类规则。损失函数通常是正则化的极大似然函数。决策树学习 的算法通常是一个递归地选择最有特征,并根据该特征对训练数据集进行分割,使得对各个子数据集有一个最好的分类过程。这一过程对应着特征空间的划分,也对应着决策树的构建...原创 2020-03-21 13:58:53 · 281 阅读 · 0 评论 -
机器学习中,特征选择有哪些方法?
1 特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触...原创 2020-01-19 14:45:02 · 1234 阅读 · 0 评论 -
RandomForest 调参
在scikit-learn中,RandomForest的分类器是RandomForestClassifier,回归器是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。一、Bagging框架的参数:1.n_estimators:最大的弱学习器的个数,默认是10。一般来说n_estimators...原创 2019-12-27 15:15:04 · 1000 阅读 · 0 评论 -
机器学习分类器评估指标:ROC和AUC
1 二分类评估指标针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况:(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)(2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN)(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Pos...原创 2019-11-19 10:29:22 · 650 阅读 · 0 评论 -
关联规则(Association Rules)
1 前言关联规则反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。本篇的Apriori算法主要是基于频繁集的关联分析。其主要目的就是为了寻找强关联规则。常见的购物篮分析通过观察顾客放人其购物篮中的不同商品之间的联系,分析顾客的购买习惯,了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略...原创 2019-10-17 16:24:45 · 3113 阅读 · 0 评论 -
朴素贝叶斯算法(Naive Bayes) 原理总结
1 数学知识贝叶斯定理:特征条件独立假设:2 朴素贝叶斯2.1 算法原理输入空间:输出空间:y={C1,C2,…,CK}。训练集:T={(x1,y1),(x2,y2),…,(xN,yN)}。对于每个实例,其P(X,Y)独立同分布。在进行分类之前,需要先将计算先验概率和条件概率然后据此计算出后验概率。1) 先验概率分布:P(Y=Ck),k=1,2...原创 2019-10-16 17:58:44 · 6911 阅读 · 2 评论 -
SVM 支持向量机算法原理(详细总结)和python代码实现
支持向量机是由Vapnik等人于1995年提出来的,是被公认的比较优秀的分类模型,逐渐受到了各领域研究者的关注。支持向量机的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大化使它有别于感知机。学习策略是间隔最大化,可形式化求解一个凸二次规划的问题。1 线性可分支持向量机给定一个线性可分的训练集,找到一个间隔最大的分隔超平面,将两类数据正确划分。1.1 函数间隔...原创 2019-09-28 14:45:55 · 4192 阅读 · 0 评论 -
因子分解机Factorization Machine
Factorization Machine是对Logistic Regression算法的扩展,是一种基于矩阵分解的机器学习算法。由于逻辑回归只能处理线性可分的二分类算法,对于非线性可分的二分类问题,基本的逻辑回归算法不能很好的进行分类。目前,被广泛的应用于广告预估模型中,是一种不错的CTR预估模型,与Logistic Regression相比, FM能够把握一些组合的高阶特征,因此拥有更强的...原创 2019-09-17 17:09:43 · 879 阅读 · 0 评论 -
机器学习之Softmax Regression
在多分类任务中,通常会用到Softmax,在神经网络中,如果问题是分类模型(即使是CNN或者RNN),一般最后一层是Softmax Regression。它的工作原理是将可以判定为某类的特征相加,然后将这些特征转化为判定是这一类的概率。目录1、Softmax Regression算法模型用于解决多分类问题2、Softmax Regression算法的代价函数3、Softmax...原创 2019-09-16 14:38:50 · 264 阅读 · 0 评论 -
逻辑回归(Logistic Regression)
目录一、逻辑回归模型的构建二、逻辑回归的损失函数三、损失函数求解四、sklearn实现逻辑回归逻辑回归是一种分类算法 ,通过对训练样本的学习,找到一个超平面 WX+b=0 将正负两类样本分开。sigmoid function的图像是一条值在0到 1之间的S型曲线,如图:一、逻辑回归模型的构建我们简单地把原来的X替换为一个线性模型就得到了上面公式。代替部分可以...原创 2019-09-15 12:13:24 · 1134 阅读 · 0 评论