自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rubyw的博客

努力学习成长!

  • 博客(153)
  • 资源 (4)
  • 收藏
  • 关注

原创 Python实现KNN算法

【代码】Python实现KNN算法。

2024-02-21 10:49:21 392

原创 Python实现线性逻辑回归和非线性逻辑回归

【代码】Python实现线性逻辑回归和非线性逻辑回归。

2024-02-20 16:29:03 617

原创 机器学习:KNN原理(K-近邻)

为了判定未知样本的类别,以全部训练样本作为代表点,计算未知样本与所有训练样本的距离,并以最近邻者的类别作为决策未知样本类别的唯一依据。KNN模型概述。

2024-02-20 11:45:28 289

原创 机器学习:如何评估分类结果

正确率与召回率(Precision & Recall)是广泛应用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。一般来说,正确率就是检索出来的条目有多少是正确的,召回率就是所有正确的条目有多少被检索出来了。。是综合上面二个指标的评估指标,用于综合反映整体的指标。这几个指标的取值都在0-1之间,数值越接近于1,效果越好。我们希望检索结果Precision越高越好,同时Recall也越高越好,但事实上这两者在某些情况下有矛盾的。

2024-02-20 10:44:37 343

原创 机器学习:逻辑回归原理

逻辑回归模型是一种广泛应用于分类问题的统计方法。尽管名为“回归”,但它实际上是一种分类算法,主要用于预测观察对象属于某个类别的概率。逻辑回归模型特别适用于二分类问题,但也可以通过一些策略扩展到多分类问题。正则化: 为了防止过拟合,可以使用L1或L2正则化。特征工程: 通过特征选择、特征转换或特征构建来改进模型性能。模型评估: 使用准确率、召回率、F1分数、AUC-ROC曲线等指标来评估模型性能。处理多分类问题: 可以使用“一对一”或“一对多”策略将逻辑回归扩展到多分类问题。

2024-02-20 10:35:53 479 2

原创 梯度下降法

用梯度下降法求解线性回归线性回归的代价函数是凸函数非凸函数和凸函数梯度下降法优化过程

2024-01-22 16:55:11 339

原创 特征缩放、数据归一化、数据标准化

特征缩放数据归一化数据标准化

2024-01-22 16:48:41 354

原创 Python实现Lasso回归模型

• Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and Selectionator operator)算法。• 通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零(岭回归估计系数等于0的机会微乎其微,造成筛选变量困难),解释力很强。• 擅长处理具有多重共线性的数据,与岭回归一样是有偏估计。

2024-01-22 16:28:03 671

原创 Python实现交叉验证法

交叉验证是一种用于评估模型性能和选择超参数的方法。其中,k折交叉验证是最常用的形式之一。它将数据集分为k个相似大小的折(folds),然后执行k次训练-测试过程,每次选择一个不同的折用作测试集,其余折用作训练集。最后,将k次测试的性能指标的平均值作为最终性能指标。进行k折交叉验证,并输出交叉验证的均方误差(MSE)得分。这个得分可以用于评估模型性能。将特征转换为多项式特征,并创建一个多项式回归模型。在scikit-learn库中,可以使用。在这个例子中,我们使用。

2024-01-22 16:15:01 578

原创 Python岭回归(Ridge Regression)

【代码】Python岭回归(Ridge Regression)

2024-01-22 16:11:07 1346

原创 防止过拟合的方法

防止过拟合的方法:减少特征增加数据量正则化正则化(Regularized)

2024-01-22 15:57:42 334

原创 梯度下降法和标准方程法比较

2024-01-22 15:46:26 361

原创 Python线性回归标准方程

【代码】Python线性回归标准方程。

2024-01-22 15:27:38 378

原创 Python多项式回归sklearn

多项式回归是一种回归分析的方法,它通过使用多项式函数来拟合数据。与简单线性回归不同,多项式回归可以更灵活地适应数据的曲线特征,因为它可以包含多个特征的高次项。多项式回归的一般形式为:在实际应用中,可以通过调整多项式的次数来适应不同的数据特征。然而,过高的多项式次数可能导致过拟合,对新数据的泛化能力较差。多项式回归可以通过最小化损失函数来找到最优的回归系数。一种常见的方法是使用最小二乘法。在Python中,可以使用各种库(如NumPy、SciPy和scikit-learn)来实现多项式回归。

2024-01-22 15:01:57 760

原创 Python多元线性回归sklearn

【代码】Python多元线性回归sklearn。

2024-01-22 14:29:03 821

原创 python一元线性回归sklearn

【代码】python一元线性回归sklearn。

2024-01-22 14:16:43 552

原创 python一元线性回归:梯度下降法、损失函数

【代码】python一元线性回归:梯度下降法、损失函数。

2024-01-22 14:11:31 460

原创 相关系数与决定系数

相关系数决定系数

2024-01-22 11:29:05 380

原创 python最小二乘估计模型OLS Regression Results含义解释

确定数据的概率分布,这通常由模型的选择决定。

2024-01-18 15:22:24 1189

原创 python最小二乘法回归结果常用参数提取

【代码】python最小二乘法回归结果常用参数提取。

2024-01-18 14:49:10 353

原创 t分布表、F分布表、Z分布表

2024-01-18 14:45:19 414

原创 python:一元线性回归模型案例分析

中国全体居民的消费水平与经济发展数量关系的分析改革开放以来,随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也在不断增长。研究中国全体居民的消费水平与经济发展的数量关系,对于探寻居民消费增长的规律性,预测居民消费的发展趋势有重要意义。影响居民人均消费水平的因素有多种,但从理论和经验分析,最主要的影响因素应是经济发展水平。从理论上说经济发展水平越高,居民消费越多。被解释变量选择能代表城乡所有居民消费的“全体居民人均年消费水平”(元/人);

2024-01-18 14:40:46 1619

原创 数据智能建设全景图

2024-01-17 09:50:08 346

原创 机器学习:线性回归模型的原理、应用及优缺点

线性回归是一种统计学和机器学习中常用的方法,用于建立变量之间线性关系的模型。其原理基于假设因变量(或响应变量)与自变量之间存在线性关系。通过最小二乘法,得到最优的系数,从而建立了线性回归模型。模型的预测值 ( \hat{Y} ) 可以通过将自变量的值带入模型中计算得到。可以使用各种指标来评估模型的性能,如均方误差(Mean Squared Error,MSE)或决定系数(R-squared)。这些指标可以衡量模型对观测数据的拟合程度和预测能力。当存在多个自变量时,模型形式仍然是线性的,只是系数增加了。

2024-01-17 09:04:01 3127

原创 机器学习:简要介绍及应用案例

机器学习是一种人工智能(AI)的分支,它致力于研究和开发系统,使它们能够从经验中学习并自动改善。这种学习过程使机器能够适应新的数据,识别模式,做出决策和预测,而无需明确的编程。机器学习的主要目标是通过算法和统计模型,使计算机系统能够执行特定任务而无需明确的规则。这种学习的方式通常分为监督学习、无监督学习和强化学习。在监督学习中,算法从带有标签的训练数据中学习。它学会将输入与相应的输出关联起来,然后用这个关联关系对新的未标记数据进行预测。无监督学习中,算法处理没有标签的数据,试图发现数据中的模式和结构。

2024-01-16 16:52:00 731 1

原创 python:pycharm报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode

coding: utf-8 -在代码文件最上方添加:- coding: utf-8 -

2024-01-16 16:38:23 530

原创 机器学习:常见符号含义

2024-01-15 14:34:10 360

原创 机器学习:自然语言处理介绍

总的来说,机器学习在自然语言处理中的应用范围广泛,不断涌现出新的模型和技术,推动着自然语言处理领域的发展。深度学习模型,如卷积神经网络(CNN)和循环神经网络(RNN),在情感分析中表现良好。机器学习在自然语言处理(NLP)领域扮演着关键的角色,它利用算法和统计模型来处理和理解人类语言。利用生成模型,如循环神经网络(RNN)或变分自编码器(VAE),可以实现自然语言的生成,包括文章、对话等。BERT 是一种预训练的语言模型,通过双向上下文理解,取得了在多个 NLP 任务上的优异表现。

2024-01-09 15:50:03 653

原创 机器学习:数据处理与特征工程

机器学习中的数据处理和特征工程是非常关键的步骤,它们直接影响模型的性能和泛化能力。

2024-01-09 14:05:05 912 1

原创 混淆矩阵及ROC曲线、AUC的介绍及其用法

ROC曲线(Receiver Operating Characteristic Curve)以真正例率(True Positive Rate,TPR)为纵轴,假正例率(False Positive Rate,FPR)为横轴,描述了在不同阈值下模型的分类性能。: 通过混淆矩阵,你可以计算模型的准确率、召回率、精确度和F1分数等指标,帮助你了解模型的预测表现,比如模型是否更容易将恶性肿瘤错判为良性(FP)还是将良性肿瘤错判为恶性(FN)。AUC值是比较不同模型性能的重要指标,值越高的模型通常更优秀。

2023-12-25 17:07:28 111

原创 Python:合并两个PDF文件为一个PDF

库的版本问题或者库本身的问题。在这种情况下,你可以尝试使用。(MuPDF)库来处理 PDF 文件。为你的实际文件路径,将合并后的 PDF 文件保存到。如果你使用PyPDF2’遇到了。模块来实现 PDF 合并。这个错误,可能是由于。

2023-12-11 16:04:58 676

原创 Excel:对比两列是否有重复值

如果你想检查列A中的每个单元格是否存在于列B中,你可以使用Excel的VLOOKUP函数或MATCH函数。

2023-12-11 16:02:52 561

原创 时间序列分析算法的概念、模型检验及应用

ARIMA(Autoregressive Integrated Moving Average)模型是一种常用于处理平稳和非平稳时间序列的模型。ARIMA模型的三个组成部分分别是自回归项(AR)、差分项(I)和移动平均项(MA)。时间序列分析是一种用于研究随时间变化的数据模式和趋势的统计方法。时间序列分析的目标是从过去的观测中提取信息,以便预测未来的趋势。在实际应用中,选择合适的模型和检验方法取决于数据的性质和特点,以及分析的具体目的。不同的行业和领域可能需要使用不同的时间序列分析工具和技术。

2023-11-23 17:23:32 782

原创 聚类算法模型的概念、评估及应用

聚类是一种无监督学习方法,其目标是将数据集中的样本分成不同的组别,使得同一组内的样本相似度较高,而不同组之间的样本相似度较低。聚类算法模型通常通过计算样本之间的相似度或距离来实现这一目标。

2023-11-23 16:30:32 132

原创 多元逻辑回归模型的概念、模型检验以及应用

多元逻辑回归是逻辑回归的一种扩展,用于处理多类别分类问题。在二元逻辑回归中,我们通过一个逻辑函数(也称为S形函数)将输入特征映射到一个概率值,用于预测两个类别中一个的概率。而在多元逻辑回归中,我们面对的是有多个类别的情况,通常使用 softmax 函数来处理多个类别。在这些应用中,我们通常需要将输入数据分为多个类别,并预测新的样本属于这些类别中的哪一个。在实际应用中,为了提高模型性能,可以采用特征工程、正则化等方法,同时需要对模型进行充分的评估和验证,例如使用交叉验证来评估模型的泛化能力。

2023-11-23 15:28:56 781

原创 多元线性回归模型的自变量进入方式和模型假设检验

这些检验规则是在统计学上通常用于验证线性回归模型的假设和质量的方法。需要注意的是,这些规则并不是一成不变的,有时候需要根据具体的问题和数据特点做出适当的调整。模型检验的目的是确保模型对数据的拟合是合理的,并且所做的推断是可靠的。逐步回归可以在较短的时间内找到一个相对较好的模型,而全部变量回归可以提供更全面的模型选择。然而,需要注意的是,逐步回归容易受到过拟合的影响,因此在选择自变量时需要谨慎。线性回归模型的检验主要涉及对模型拟合的质量、残差的性质以及模型假设的验证。

2023-11-23 11:12:14 461

原创 连续变量降维:主成分分析和因子分析

主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)都是用于处理连续变量降维的统计方法,它们在数据分析和特征提取中经常被使用。尽管它们有一些相似之处,但它们的目标、假设和应用有一些不同之处。

2023-11-22 17:11:00 396

原创 线性回归的正则方法:岭回归和Lasso

选择使用岭回归还是Lasso回归通常取决于问题的性质和数据的特点。如果你认为在模型中存在许多相关的特征,且不希望它们的权重过大,可以尝试使用岭回归。在实际应用中,还可以使用弹性网络(Elastic Net),它综合了岭回归和Lasso回归的特点。请注意,这只是一个简单的例子,实际上,选择合适的超参数值是一个需要仔细调整的任务。在Python中,可以使用Scikit-learn库进行岭回归和Lasso回归的实现。让我们通过一个简单的例子来说明岭回归和Lasso回归的应用。

2023-11-22 15:47:12 149

原创 最小二乘估计及与极大似然估计的关系

最小二乘估计(Least Squares Estimation)和极大似然估计(Maximum Likelihood Estimation)是统计学中常用的参数估计方法,它们在某些情况下是等价的,但在一般情况下并不总是相同的。

2023-11-22 15:29:45 267

原创 单变量影响度分析和两变量关联性检验

双变量单变量

2023-11-22 15:19:30 40

武汉echarts地图js文件

武汉echarts地图js文件

2023-10-27

苏州echarts地图js文件

苏州echarts地图js文件

2023-10-27

MongoDB-windows-x86-64-5.0.20

MongoDB5.0安装包

2023-09-01

Linux: CentOS 6.8

Linux: CentOS 6.8

2022-06-20

Tableau 10.5.0

Tableau 10.5.0

2022-06-20

intellij idea 2019.2

具体安装可搜索安装方法

2022-06-20

linux:CentOS6.9

linux:CentOS6.9

2022-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除