机器学习
文章平均质量分 95
Sunburst7
这个作者很懒,什么都没留下…
展开
-
实验:集成学习预测Titanic号生还者
文章目录一 实验要求二 实验思路三 实验代码四 实验结果参考一 实验要求用集成方法对数据集进行分类利用若干算法,针对同一样本数据训练模型,使用投票机制,少数服从多数,用多数算法给出的结果当作最终的决策依据,对Titanic数据集 进行分类,给出在测试集上的精确度;除了投票法,其他的集成学习方法也可以。实验来自kaggle入门赛 https://www.kaggle.com/c/titanic ,可以参考原网站 代码与预处理部分,但与公开代码不同的在于,集成学习所用的基学习 器需要自己原创 2021-12-16 18:56:55 · 1753 阅读 · 2 评论 -
集成学习(ensemble learning)
文章目录一 引言二 Bagging三 Boosting参考一 引言集成学习(ensemble learning),它通过将多个学习器集成在一起来达到学习的目的。主要是将有限的模型相互组合,其名称有时也会有不同的叫法,有时也会被称为多分类器系统(multi-classifier system)、委员会学习(committee learning)。【1】集成学习利用一些方法改变原始训练样本的分布,构建多个不同的学习者器,然后将这些学习器组合起来完成学习任务,集成学习可获得比单一学习器显著优越的泛化性能,原创 2021-12-16 17:02:48 · 3103 阅读 · 2 评论 -
实验——基于决策树算法完成鸢尾花卉品种预测任务
文章目录一 实验要求二 实验思路三 实验代码四 实验结果与分析参考一 实验要求本实验通过鸢尾花数据集iris.csv来实现对决策树进一步的了解。其中, Iris鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每类各50个数据,每条记录都有4项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于iris-setosa, iris-versicolour, iris-virginica三个类别中的 哪一品种。Iris数据集原创 2021-12-05 15:36:47 · 7622 阅读 · 1 评论 -
决策树—非度量方法
文章目录一 前言二 决策树学习生成算法三 ID33.1 熵3.2 信息增益3.3 ID3生成算法3.4 ID3的优缺点四 C4.54.1 信息增益率五 CART六 决策树相关问题6.1 剪枝处理6.2 连续值处理6.3 缺失值处理参考一 前言之前学习的很多都是基于连续实数或离散数值的特征向量的模式识别问题,例如在神经网络中,如果两个输入向量足够接近,那么它们的输出也很相似。然而,假定某个分类问题中需要用到**“语义数据”(nominal data 或称为标注数据、名义数据)**,这种数据没有任何相似性原创 2021-12-05 15:34:35 · 812 阅读 · 0 评论 -
实验——神经网络预测Fashion-MNIST数据集
文章目录一 实验数据二 实验要求三 实验思路与代码3.1 初始的设想3.2 改进思路:矩阵运算四 实验结果分析参考:一 实验数据Fashion-MNIST数据集,数据集中包含 60000 张训练样本,10000 张测试 样本,可将训练样本划分为49000 张样本的训练集和1000 张样本的验证集,测 试集可只取1000 张测试样本。其中每个样本都是 28×28 像素的灰度照片,每 个像素点包括RGB三个数值,数值范围0 ~ 255,所有照片分属10个不同的类别。灰度与像素值的关系:图像的灰度化原创 2021-11-28 17:18:58 · 6500 阅读 · 0 评论 -
神经网络基础与反向传播
文章目录一 生物神经网络到人工神经网络二 单层感知机网络2.1 感知机模型2.2 激活函数2.3 感知机分类图示2.4 感知机的学习策略三 反向传播学习算法(Back Propagation)3.1 Notation3.2 BP算法原理3.3 其他问题参考一 生物神经网络到人工神经网络人工神经网络的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。神经元大致可以分为:树突、突触、细胞体和轴突。在生物神经网络中,每个神经元与其他神经元相连,当它兴奋时,就会向相连的神经元发送化学物质,从而原创 2021-11-28 15:31:58 · 1455 阅读 · 0 评论 -
实验——参数估计与非参数估计
目录1 最大似然估计1.1 实验要求1.2 实验思路1.3 代码实现1.4 实验结果2 Parzen窗2.1 实验要求2.2 实验思路2.3 代码实现2.4 实验结果3 K近邻3.1 实验要求3.2 实验思路3.3 代码实现及结果3.3.1 一维情况3.3.2 二维情况3.3.3 三维情况4 KNN实战4.1 实验要求4.2 实验思路4.3 实验结果与思考1 最大似然估计1.1 实验要求使用上面给出的三维数据:编写程序,对类1和类2中的三个特征????????分别求解最大似然估计的均值????原创 2021-11-20 17:50:45 · 5373 阅读 · 1 评论 -
非参数估计—Parzen窗与K-nearest-neighbor
在之前的学习中,我们总是假设概率密度函数的参数形式已知,并在此条件下处理有监督学习过程。而在现实世界中,我们给出的概率密度函数很少符合实际情况,本节我们讨论非参数化方法(non-parametric method),它可以处理任意的概率分布而不必假设密度的参数形式已知。大体上还是遵循着贝叶斯决策论,主要有两个非参数估计的方向:从训练样本中估计类条件概率密度:p(x∣ωi)p(\textbf{x}|\omega_i)p(x∣ωi)直接估计后验概率:P(ωj∣x)P(\omega_j|\textbf{x原创 2021-11-16 15:50:40 · 2695 阅读 · 1 评论 -
参数估计—最大似然估计与贝叶斯估计
文章目录一 参数估计二 最大似然估计2.1 参数分量2.2 基本原理2.3 高斯情况2.3.1 协方差矩阵Σ\SigmaΣ已知,而均值μ\muμ未知2.3.2 协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知三 贝叶斯估计3.1 基本原理3.2 高斯情况下的贝叶斯估计3.2.1 单变量情况第一步:p(μ∣D)p(\mu|D)p(μ∣D)3.2.2 单变量情况第二步:p(x∣D)p(\textbf{x}|D)p(x∣D)四 最大似然估计与贝叶斯估计比较参考一 参数估计在贝叶斯决策论中,我们已经学习了如何根原创 2021-11-07 15:23:28 · 3376 阅读 · 0 评论 -
贝叶斯决策论(二):多元高斯分布下的判别函数
一个贝叶斯分类器可由条件概率密度p(x|ωi)和先验概率P(ωi)决定。在各种密度函数中,高斯密度函数(多元正态函数)最受青睐。本节我们先从单变量高斯密度函数谈起,接着探讨多元高斯分布以及一些特殊情况下的判别函数。文章目录一 单变量高斯密度函数二 多元密度函数三 正态分布下的判别函数3.1 Σi=σ2I\Sigma_i=\sigma^2IΣi=σ2I3.2 Σi=Σ\Sigma_i=\SigmaΣi=Σ3.3 Σi=\Sigma_i=Σi=任意参考一 单变量高斯密度函数单变量正态或高斯密度函数原创 2021-10-28 19:55:35 · 3151 阅读 · 2 评论 -
实验——贝叶斯决策论预测贷款是否违约
一 实验背景与实验说明信用风险是指银行向用户提供金融服务后,用户不还款的概率。信用风险一直是银行贷款决策中广泛研究的领域。信用风险对银行和金融机构,特别是商业银行来说,起着至关重要的作用,但是一直以来都比较难管理。本实验以贷款违约为背景,要求使用贝叶斯决策论的相关知识在训练集上构建模型,在测试集上进行贷款违约预测并计算分类准确度。...原创 2021-10-24 15:11:56 · 4978 阅读 · 5 评论 -
贝叶斯决策论(一):贝叶斯决策理论
贝叶斯决策论是利用概率的不同分类决策与相应的决策代价之间的平衡,核心思想是决策问题可以通过概率的形式来描述。1 Notation了解贝叶斯决策论之前先学习有关的符号:假定x是一个连续随机变量,其分布取决于类别状态,表示为...原创 2021-10-13 09:39:10 · 10953 阅读 · 0 评论