![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
PanDawson
上海海洋大学软件工程学生
展开
-
逻辑回归算法
经典的二分类算法是分类而不是回归,也可进行多分类,则要用到softmax(以后再讲)问题:是什么算法?分类还是回归?为什么要用到似然函数怎样转换为梯度下降任务参数怎么更新参数稳定后概率意义首先从线性回归获得预测值,再经过sigmoid函数将预测值对应到0-1区间上其实就获得了以我们的预测值(权重参数和变量的结合)为参数的sigmoid函数逻辑回归分类的...原创 2019-03-01 11:17:16 · 158 阅读 · 0 评论 -
隐马尔科夫HMM 算法
要知道隐马尔科夫我们先来了解什么是马尔科夫模型举一个天气的例子:我们知道某些天气出现的概率和天气之间转换的概率比如我知道了昨天的天气,想知道今天的天气最可能是什么,由上图可以知道,昨天的天气是什么,会对今天可能的天气是有影响的。那么这个时候我们可以说,一个一阶的马尔科夫模型是什么样的此时,我们可以知道今天是晴天的概率是多少计算今天是晴天的概率就需要去计...原创 2019-03-31 15:56:12 · 511 阅读 · 0 评论 -
GBDT算法
GBDT算法 Gradient Boosting Decision Tree以梯度为优化目标,以提升为手段(前面讲到的集成算法中的串联),基础模型为决策树(这里用的是回归树)的算法GBDT简单来说,就是用多个树串联,提升模型的效果以下是学习唐宇迪老师的GBDT算法的理解,文末有其他直接更详细的的关于GBDT算法的实现回归树的形式是CART 即二叉树使用回归树做分类和回归都...原创 2019-03-19 10:52:22 · 4359 阅读 · 0 评论 -
随机森林参数选择
这里是基于前面两篇相关文章基于随机森林做回归任务(数据预处理、MAPE指标评估、可视化展示、特征重要性、预测和实际值差异显示图)https://blog.csdn.net/qq_40229367/article/details/88526749数据与特征对随机森林的影响(特征对比、特征降维、考虑性价比)https://blog.csdn.net/qq_40229367/articl...原创 2019-03-13 15:04:25 · 22607 阅读 · 2 评论 -
数据与特征对随机森林的影响(特征对比、特征降维、考虑性价比)
基于前面的随机森林做分类任务https://blog.csdn.net/qq_40229367/article/details/88526749我们看一下数据与特征对随机森林的影响我们读入一个数据量更多,特征也多了的数据集import pandas as pd# Read in data as a dataframefeatures = pd.read_csv('data/...原创 2019-03-13 14:38:18 · 12432 阅读 · 2 评论 -
基于随机森林做回归任务(数据预处理、MAPE指标评估、可视化展示、特征重要性、预测和实际值差异显示图)
学习唐宇迪老师的机器学习课程——基于随机森林做回归任务这是一个天气最高温度预测任务。通常想法是训练出随机森林,然后因为是做回归任务,那么取叶子节点中样本的平均值作为预测值(如果是分类任务就是取众数)读入数据,看数据情况,有无缺失值、异常值数据集:temps.csv链接: https://pan.baidu.com/s/1afKQjExLGHUJxpwZdnUGUA 提取...原创 2019-03-13 10:55:04 · 37244 阅读 · 43 评论 -
降维算法 LDA & PCA
问题:什么是降维算法降维算法有哪些各自是怎么实现降维的降维算法,是为了使庞大的数据,多个特征,在之后能得到更好的处理效果,如分类,进行尽量保持原有信息的数据的压缩同时提高数据的处理效率。降维算法中有两种,LDA 线性判别分析 和 PCA 主成分分析LDA是针对有监督问题的,PCA是针对无监督问题的。LDA,Linear Discrimination Anal...原创 2019-03-12 15:55:53 · 308 阅读 · 1 评论 -
EM 算法
EM算法Expectation-Maximization,期望最大算法E-step:求期望,M-step:求极大EM算法就是从观察样本得到的是样本的分布情况的算法,训练得到的模型逼近真实分布例子:100个学生的身高比如某个学生身高1.7(样本),那么在我们模型下,选择1.7左右的同学的时候我们会希望抽到这个学生,抽到这个学生的可能性越大,那么我们的模型拟合的也就越好,越...原创 2019-03-20 16:46:17 · 329 阅读 · 0 评论 -
个人简单理解 SVM支持向量机
SVM支持向量机 Support vector machine像逻辑回归,解决的是二分类问题(先讲解线性的 , 后面是非线性的)SVM想要找的是能把两类数据分的最开的“胖边界”——也就是最好的决策边界如上图,哪个边界才是最好的呢同时我们把两类数据分成1 和-1 ,在边界上面的(红色点)视为1 ,下面的点(黄色点)视为-1(逻辑回归是视为1和0,但是我们可以这样认为,我...原创 2019-03-16 14:36:33 · 811 阅读 · 0 评论 -
K-Means & DBSCAN 聚类算法
问题:什么是聚类算法,其难点在哪有哪些是聚类算法,其处理过程是什么,优劣势有哪些评估聚类算法的方法聚类算法,是无监督学习,也就是无标签(label),是把相似的数据划分在一起聚类算法的普遍难点在于:如何选择合适的参数(调参),怎样评估聚类效果是好的(评估)聚类算法中比较常用的有K-means 和DBSCANK-means : 以质心为中心,聚类成K个簇需...原创 2019-03-06 20:59:41 · 1519 阅读 · 0 评论 -
贝叶斯算法
问题:贝叶斯算法想解决什么问题运用贝叶斯的例子解决问题的过程是怎么样的如何用贝叶斯解决拼写纠错如何用贝叶斯解决错误邮件过滤如何用贝叶斯解决新闻分类,有哪几种方法,方法如何贝叶斯算法,就是求逆概的算法,那逆概又是什么呢我们通常知道的求概率像是一下这种的:黑球有10个,白球有5个,问抽一次求,是黑球的概率是多少,是白球的概率是多少这是我们初高中学到的概率...原创 2019-03-06 14:56:26 · 303 阅读 · 0 评论 -
线性回归算法
通过已知数据,回归得出一条线或平面。问题:计算机处理数据时数据的形式是什么误差项服从怎样的分布我们怎样找到最合适的线或平面,过程是怎样的(似然函数,对数似然,目标函数)怎样评估我们最后得到的线或平面过程:数据已有,那么我们需要得知的是系数,有多少个维度(变量)也就需要多少个系数,外加一个偏置项(也叫偏置参数)。其实偏置项也是我们理解的y=kx+b 中...原创 2019-02-27 11:11:05 · 317 阅读 · 0 评论 -
K近邻算法
K近邻算法,意味着在通过分析K个近邻的数据得知所求数据。回归和分类皆可。 问题:K是什么意思如何定义近邻知道近邻怎么确定自己想要的值这个值是否准确,如何评估预测结果基于单变量和基于多变量的过程是一样的吗 过程:K:所选择近邻的个数如何确定近邻,即如何才算是近邻:欧氏距离确定近邻后,取其相应数据的均值,从而确定所求数据对应值。有基于单变量和多变...原创 2019-02-27 10:16:00 · 190 阅读 · 0 评论 -
集成算法
集成算法,用多个分类器来提高准确率问题:集成算法有哪几种?各自的方式是什么样的集成算法,分为三种:Bagging、Boosting、Stacking并行,提升和堆叠从字面上就可以大概知道他们的意思:Bagging 并行:并行训练多个模型,最后综合多个模型的结果,得出最后的结果这里的并行训练,是指让多个分类器各自训练,互不影响。Bagging 的代表:随机森...原创 2019-03-03 10:14:21 · 2296 阅读 · 0 评论 -
决策树
决策树,生成树的结构(根节点,叶子节点,非叶子节点),可以做分类,也可以做回归任务问题:如何构造我们想要的树构造树的时候容易有什么问题,怎么解决根节点和非叶子节点都是特征,叶子才是包含样本的节点。树是什么样的树,怎么构造,它的效果怎么评估当我们把这颗树构造好了,那么测试它就是走一遍这棵树看最后结果怎么样那么难点就不是测试它,而是在如何构造我们想要的树...原创 2019-03-02 15:54:53 · 154 阅读 · 0 评论 -
样本不均衡处理方法、交叉检验、正则化惩罚
问题:为什么一定要处理样本不均衡?什么是交叉检验什么是正则化惩罚怎么运用交叉检验怎么运用正则化惩罚以信用卡异常来举例,0是正常,1是异常简单观察数据(这里的数据已经经过预处理),发现样本不均衡情况,(常理)0的数量比1的数量多得多。处理样本不均衡有两种方法,一是下采样(使之一样少),二是过采样(使之一样多)为什么一定要处理样本不均衡?如果样本不均衡的时...原创 2019-03-01 20:37:16 · 1401 阅读 · 1 评论 -
时间序列ARIMA模型
ARIMA 模型 差分自回归移动平均模型Autoregressive Integrated Moving Average Model其分为 差分 自回归 移动平均 三部分(接下来也是按这三部分介绍ARIMA)原理的意思是第一个图是原数据图,第二个图是做了一阶差分的数据图 ,第三个图是做了二阶差分的图可以看到,第二第三个图是围绕某一值上下浮动变化的,也就是非平稳(第一个...原创 2019-04-02 10:41:42 · 2687 阅读 · 0 评论