机器学习理论学习
文章平均质量分 93
Foneone
菜鸡养生记。
展开
-
ID3 C4.5 CART 区别
转载:https://zhuanlan.zhihu.com/p/128587211文章阐述了三者的区别与联系。做个总结:算法 分类规则 能否处理连续值 是否存在剪枝 分类节点是否可以循环使用 是否可以处理缺失值 分类或者回归 样本大小 ID3 信息增益 否 否 否 否 分类 小样本 C4.5 信息增益比 是 是 否 是 分类 中样本 CART gini指数.转载 2020-10-16 20:01:28 · 718 阅读 · 0 评论 -
简述聚类分析
简述聚类分析指标和模型原创 2022-06-20 10:10:53 · 922 阅读 · 0 评论 -
遗传算法(GA)中的编码方式-二进制编码、格雷编码、实数编码
4、30任务原创 2020-05-03 10:55:50 · 25735 阅读 · 3 评论 -
熵(Entropy) & 条件熵 (Conditional Entropy) & 相对熵(Relative Entropy)- 学习笔记
信息熵(Entropy):解决信息的度量问题一条信息的信息量与其不确定性有直接的关系,如果对一件事情了解的很多,那么信息少一些,也能知晓事情本身;反之,如果对事情没有一点了解,那么则需要大量信息来对事情进行知晓。因此,信息量就等于不确定性的多少。香农利用“比特(Bit)”来度量信息量,一个bit是一位二进制数,1字节=8bit。信息量的比特数与所有可能情况的对数函数log有关。信息熵的...原创 2019-11-03 21:16:47 · 3673 阅读 · 0 评论 -
广义线性模型(Generalized Linear Models, GLM)与线性回归、逻辑回归的关系
线性回归和逻辑回归都是广义线性模型的特例。1 指数分布族如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族。这是《数理统计》课本中的相关定义,大多数利用的定义如下(y不是一个变量,是一个群): ...原创 2020-07-17 10:12:50 · 2917 阅读 · 0 评论 -
回归问题-逐步回归(Stepwise Regression)
逐步回归(Stepwise Regression)逐步回归主要解决的是多变量共线性问题,也就是不是线性无关的关系,它是基于变量解释性来进行特征提取的一种回归方法。逐步回归的主要做法有三种:(一)Forward selection:将自变量逐个引入模型,引入一个自变量后要查看该变量的引入是否使得模型发生显著性变化(F检验),如果发生了显著性变化,那么则将该变量引入模型中,否则忽略该变量,...原创 2020-02-07 15:56:19 · 72490 阅读 · 5 评论 -
传统的时序模型预测
1)平滑法2)趋势拟合法3)组合模型4)AR模型5)MA模型 6)ARMA模型7)ARIMA模型8)ARCH模型和GARCH模型周五听了一讲报告,报告中老师讲述了传统的时序模型预测问题,因为认真的记录了笔记,所以利用今天时间整理出来,供以后学习作参考。传统的时序模型预测问题一共有8类模型:1)平滑法平滑法常用于趋势分析和预...原创 2019-08-11 23:28:50 · 8453 阅读 · 0 评论 -
回归问题-多项式回归
多项式回归(Polynomial Regression)区分一下多元回归与多项式回归的区别:多元回归可以分为:多元线性回归和多元非线性回归,多元回归指的是:一个因变量(y)与多个自变量(,)之间的关系。其中若y与,之间关系是线性的,那么就叫做多元线性回归,可以用下面的公式表示多元线性回归: ...原创 2019-10-02 22:40:57 · 2690 阅读 · 0 评论 -
随机森林如何做特征提取
转载自:https://www.cnblogs.com/xieb1994/p/9895450.html随机森林做特征提取主要是根据:OOB(outofbag)原则去做的。出发点:如果某个特征是重要的,那么当在此特征的数据分布式引入一定的噪声,那么用仅对此特征进行变化之后的数据进行RF训练,模型的性能应当会有较大的变化(较明显地变差);反之,如果某个特征是不重要的,则重新训练后的模型性能...转载 2019-07-17 21:30:41 · 10716 阅读 · 3 评论 -
回归问题-Lasso回归
Lasso(Least absolute shrinkage and selection operator)方法是以缩小变量集(降阶)为思想的压缩估计方法。它通过构造一个惩罚函数,可以将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的。正则化正则化(Regularizaiton)是一种防止过拟合的方法。 ...原创 2019-07-21 23:44:33 · 131016 阅读 · 12 评论 -
回归问题-Logistic回归&Logistic回归中为什么是sigmoid函数
Logistic回归为什么要用sigmoid函数?Logistic模型参数求解参考文献Logistic回归 Logistic回归为概率型非线性回归模型,是研究观察结果与一些影响因素之间关系的一种多变量分析方法。虽然名字中带有“回归”二字,但是它是一种常见的分类问题的方法。设条件慨率为根据某自变量相对于某事件发生的概率。Logistic回归模型为:...原创 2019-07-20 11:51:04 · 727 阅读 · 0 评论 -
优化算法-梯度下降法:BGD(批梯度)、SGD(随机梯度)、小批量梯度(MBGD)
(1)批梯度下降法(Batch Gradient Descent)梯度下降法和最小二乘法相比,梯度下降法需要选择步长,而最小二乘法不需要。梯度下降法是迭代求解,最小二乘法是计算解析解。如果样本量不算很大,且存在解析解,最小二乘法比起梯度下降法要有优势,计算速度很快。但是如果样本量很大,用最小二乘法由于需要求一个超级大的逆矩阵,这时就很难或者很慢才能求解解析解了,使用迭代的梯度下降法比较有优势。...原创 2019-07-14 22:08:39 · 2426 阅读 · 1 评论 -
回归问题-总述+线性回归(Linear Regression )
【更新-在去年这个时候写的基础上做了修改】今天正式开始机器学习之路(看的斯坦福大学的视频课以及讲义),由于看的时候蒙蒙的,因此想要找个平台保存一下自己学习的成果,因此写了此篇文章,作为机器学习的小白,文章可能有诸多不妥之处,不作为学术理论的深入研究范围。因为我是小白,我是小白,我是小白。其中用到的一些算法基本的解释:(1)最小二乘法(来自百度百科):最小二乘法。最小二乘法(又称最小平方...原创 2018-10-18 19:51:28 · 837 阅读 · 0 评论 -
主成分分析方法(PCA)详述 以及 为什么要用SVD?
目录概述最大方差理论1.3 PCA算法总结及奇异值分解应用1.3.1基于特征值分解协方差矩阵1.3.2 基于奇异值分解协方差矩阵为什么要用SVD进行降维?1.4 PCA总结参考文献概述PCA(Principal Component Analysis),即主成分分析方法,也称为主分量分析,是一种使用最广泛的数据降维算法。PCA通过线性变换将原始数据(n维...原创 2019-03-29 00:22:57 · 6865 阅读 · 1 评论 -
核PCA(Kernel PCA)详述
目录1核函数2 核函数种类3核函数应用-KPCA3月份,写过一篇PCA的文章,再此基础上,又看了关于KPCA的东西,所以有了这篇文章,这篇文章,直接使用了PCA中的主要思想,不明白的可以转到https://blog.csdn.net/foneone/article/details/88881334这篇文章。1核函数如果存在一个从X到P的映射: ...原创 2019-04-23 10:06:27 · 13243 阅读 · 0 评论 -
隐马尔科夫链(HMM)
目录阐述1.1 观测序列O出现的概率1.1.1 穷举法(直接计算法)1.1.2前向算法1.1.3 后向算法1.2 根据观测序列预测状态序列1.2.1维特比算法(动态规划)1.3 估计模型参数参考文献阐述隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。用一个简单的例子来阐...原创 2019-06-09 18:12:43 · 7301 阅读 · 1 评论