![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
理论方法
文章平均质量分 87
模型原理
ch206265
这个作者很懒,什么都没留下…
展开
-
归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)
1 概念 归一化:1)把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 标准化:在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的,资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平转载 2021-01-21 09:29:42 · 1366 阅读 · 1 评论 -
pearson相关系数的数值为多少证明有相关性?
转载于:原文链接皮尔逊相关系数变化从-1到 +1,当r>0表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;r<0表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大,则两变量相关性越强。若r=0,表明两个变量间不是线性相关,但可能存在其他方式的相关(比如曲线方式)。扩展资料:(1)一般认为:|r|≥0.8时,可认为两变量间高度相关; 0.5≤|r|<0.8,可认为两变量中度相关; 0.3≤|r|<0.5,可认为两转载 2020-10-13 09:10:53 · 45055 阅读 · 2 评论 -
机器学习中分类和回归模型的评价指标
分类算法的效果评估1,准确率accuracy_scorefrom sklearn.metrics import accuracy_score2,精确率/查准率precision_scorefrom sklearn.metrics import precision_score分为宏平均(macro)和微平均(micro),宏平均比微平均更合理。metrics.precision_score(y_true, y_pred, average='micro')metrics.precisio...转载 2020-07-01 08:42:36 · 2699 阅读 · 0 评论 -
关于交叉验证
1、机器学习之K折交叉验证 - 吉什么的文章 - 知乎 https://zhuanlan.zhihu.com/p/38121870注意:cross_val_score() 传入的 X 和 y 是原始特征和标签,而非经过 train/test split 的训练集。划分过程由 cross_val_score() 函数内完成。2、Cross-validation: evaluating estimator performance 3、Plotting Cross...原创 2020-06-17 21:45:06 · 1089 阅读 · 0 评论 -
机器学习:利用学习曲线诊断模型的偏差和方差
原文链接:https://www.sohu.com/a/218687556_100007018https://www.dataquest.io/blog/learning-curves-machine-learning/学习曲线是监督学习算法中诊断模型 bias 和 variance 的很好工具。本文将介绍如何使用 scikit-learn 和 matplotlib 来生成学习曲线,以及如何使用学习曲线来诊断模型的 bias 和 variance,引导进一步的优化策略。在构建机器学习模型转载 2020-06-16 15:38:22 · 1644 阅读 · 0 评论 -
初识箱形图
图像来源于:https://www.cnblogs.com/tsingke/p/6565605.html原创 2020-06-17 20:27:35 · 165 阅读 · 0 评论 -
随机森林算法应用案例(1):PM2.5浓度预测
基于随机森林算法的PM2.5预测转载于:https://zhuanlan.zhihu.com/p/83220850,作者:郑援镜烨空气质量指数(AQI)是衡量空气质量好坏的重要指数,它是依据空气中污染物浓度的高低来判断的。但是因为空气污染本身是一个较为复杂的现象,来自固定和流动污染源的人为污染物排放大小是影响空气质量的最主要因素之一。其中包括车辆、船舶、飞机的尾气、工业企业生产排放、居民生活和取暖、垃圾焚烧等。城市的发展密度、地形地貌和气象等也是影响空气质量的重要因素。·研究目标:.转载 2020-06-19 20:20:14 · 17283 阅读 · 7 评论 -
泰森多边形快速赋值案例——赋值观测站邻近区域的天气
泰森多边形插值又叫做**最近邻点插值法**(NearestNeighbor)GIS和地理分析中经常采用泰森多边形进行快速赋值,其中一个隐含的假设是任何地点的未知数据均使用距它最近的采样点数据。实际上,除非有足够多的采样点,否则该假设是不恰当的,比如降水、气压、温度等现象是连续变化的,**用泰森多边形插值方法得到的结果变化只发生在边界上,即产生的结果在边界上是突变的,在边界内部都是均质的和无变化的**,这是泰森多边形分析的不完善之处。因此,尽管泰森多边形产生于气候学领域,却特别适合于专题数据的内插转载 2019-12-24 21:32:24 · 3987 阅读 · 0 评论 -
相关系数与相关指数区别
文章目录一、有关叫法二、相关系数2.1 概念2.1.1 简单相关系数2.1.2 复相关系数2.1.3 偏相关系数2.1.4 典型相关系数2.1.5 相关指数2.2 计算公式2.2.1 简单相关系数2.2.2 复相关系数2.2.3 偏相关系数2.2.4 典型相关系数2.2.5 相关指数一、有关叫法 相关系数包括:简单相关系数、复相关系数、偏相关系数、典型相关系数 ; 相关指数又叫做决定...原创 2020-06-26 16:27:30 · 22471 阅读 · 0 评论 -
相关分析与回归分析、回归分析与拟合问题的关系
相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。回归分析就是对拟合问题作的统计分析原创 2019-04-15 08:17:57 · 8053 阅读 · 0 评论 -
回归模型、回归函数和回归方程的区别
回归模型初步建立起了自变量和因变量之间的关系,这个关系式包括两部分,一部分是自变量的线性函数部分,另一部分是剩余误差项 ;回归函数,是描述随机变量η的平均值即期望是如何依赖于自变量x的函数;回归方程它是回归函数的估计.原创 2019-04-15 08:12:29 · 25059 阅读 · 1 评论