机器学习
文章平均质量分 68
末世灯光
这个作者很懒,什么都没留下…
展开
-
NMF算法
NMF算法的原理是找到一个分解矩阵,将原始非负数据投影到新的空间中,新空间的每个维度(基础矩阵)都与原始数据的维度正交,并且第一个基础矩阵具有最大的活跃度(即能解释数据中最多的信息),第二个基础矩阵具有第二大的活跃度,且与第一个基础矩阵正交,依此类推。NMF是一种数据降维模型,它的基本模型是通过矩阵分解将非负数据转换到新的空间,这个新空间的坐标轴(基础矩阵)按照数据的活跃度排序,活跃度越高的基础矩阵能保留更多的数据信息。NMF能够减少数据的维度,去除冗余信息,帮助我们从高维非负数据中提取出最重要的特征。原创 2024-06-06 20:24:01 · 1208 阅读 · 0 评论 -
PCA算法
PCA的目标是找到一个变换,将数据投影到一个新的空间中,这个新空间的每个维度(主成分)都与原始数据的维度正交。PCA算法的原理是找到一个变换矩阵,将原始数据投影到新的空间中,新空间的每个维度(主成分)都与原始数据的维度正交,并且第一个主成分具有最大的方差(即能解释数据中最多的变异性),第二个主成分具有第二大的方差,且与第一个主成分正交,依此类推。PCA是一种数据降维模型,它的基本模型是通过线性变换将数据转换到新的空间,这个新空间的坐标轴(主成分)按照方差的大小排序,方差越大的主成分能保留更多的数据信息。原创 2024-06-06 20:22:44 · 822 阅读 · 0 评论 -
SVM算法
SVM算法的原理是找到一个最佳的超平面,将不同类别的数据点分开,并且使得超平面到最近的数据点的间隔最大化。SVM 的目标就是找到一个最佳的超平面,能够将不同类别的数据点分开。SVM是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。通过找到一个最佳的超平面,将不同类别的数据点分开,实现对数据的分类。在处理非线性可分数据时,SVM 通过核技巧将数据映射到更高维的空间,以便在新的空间中找到一个更好的超平面来分类数据。原创 2024-06-06 20:20:01 · 855 阅读 · 0 评论 -
机器学习常用评价指标的公式和含义
定义: 在多类别或多标签任务中,对每个类别的平均精确率(AP)进行平均后得到的指标。- 公式: TP = 数量(真实标签 = 正类 and 预测标签 = 正类)- 公式: FN = 数量(真实标签 = 正类 and 预测标签 = 负类)- 定义: 精确率和召回率的调和平均,用于综合评价模型的精确率和召回率。- 定义: 在所有实际为正类的样本中,被模型正确预测为正类的比例。- 定义: 在所有被模型预测为正类的样本中,实际为正类的比例。- 定义: 错误地预测为正类的样本数量(实际为负类)。原创 2024-04-17 15:09:26 · 688 阅读 · 0 评论 -
机器学习基础
红色系---大 蓝色系---小。参数更新的次数和设置的batchsize大小有关。可以训练一个回归的函数,也可以训练一个分类的函数。每一天的误差都可以加起来生成的L就代表了损失。----本质就是寻找一个函数。除了关于当前的斜率外还和自己设置的学习率相关。这个例子的需要分类的类别是19*19的选项。利用已存在的数据,预测未来几天的数据。b和w是未知参数,x是输入,y是输出。这种问题是由于过拟合产生的问题。Loss计算方式保持不变。可以训练什么样的函数呢?这个函数的参数如何定义?原创 2023-08-09 13:18:48 · 403 阅读 · 0 评论 -
机器学习---自编码器
不可能在实现每一句话都找两个人同时发音记录,我们期望两个人记录一些对话之后就可以训练一个模型,任何语音都可以实现转化。可以实现摘要总结,但是这个摘要属于EN和DN之间的暗号,我们直接查看是看不懂的,所以我们应该怎么做呢?输入一个图片,经过encoder变成一个向量,再通过decoder将这个向量反向生成输入的图片。常见变形:试图还原加入噪声之前的图片---消除噪声的功能。FD技术希望可以在压缩完的数据中分析出对应的信息类型。自编码器不仅用在图像上,也可以用在音频、文本中。特点:不需要任何的标注资料。原创 2023-08-09 10:09:29 · 414 阅读 · 0 评论 -
机器学习---监督学习和非监督学习
根据训练期间接受的监督数量和监督类型,可以将机器学习分为以下四种类型:监督学习、非监督学习、半监督学习和强化学习。原创 2023-08-07 11:47:18 · 786 阅读 · 1 评论 -
机器学习---结课论文
机器学习与隐私保护结课论文摘 要:随着大数据时代的到来,时间序列数据在各个领域被广泛应用。然而,如何在利用这些数据的同时保护用户隐私成为了一个亟待解决的问题。本文回顾了时间序列数据的基本概念及其在机器学习中的应用,并总结了当前面临的隐私保护问题及已有的解决方案。接着,分析了这些解决方案的不足之处,并提出了新的隐私保护方法。最后,展望了未来研究方向。本文旨在为时间序列数据的隐私保护提供一个全面的概述,为未来相关研究奠定基础。关键词: 时间序列数据;机器学习;隐私保护;差分隐私;安全多方计算;原创 2023-04-18 09:24:43 · 5546 阅读 · 1 评论 -
逻辑回归学习报告
在机器学习中有损失函数的概念,我们知道损失函数一般定义为预测值和真实值的差,比如我们预测小华在这次考试中能考98分,成绩出来了小华实际考了97分,小华的成绩预测值和真实值差为1,这个1通俗理解就是损失函数的值。结合逻辑回归函数,如果我们已经积累了大量的违约客户和正常客户的样本数据,利用极大似然函数由果溯因,估计出使得目前结果的可能性最大参数(系数)θ,有了参数我们就可以求任何一个客户违约的概率了。也可以由对数似然函数构造损失函数,用梯度下降法求出使得损失最小对应的参数θ,接下来看下逻辑回归中的损失函数。原创 2023-03-26 20:58:35 · 1262 阅读 · 0 评论 -
朴素贝叶斯学习报告
葡萄酒分类数据集,Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。例如,测试集某个特征不存在,概率本应该是 0 \ n ,使用拉普拉斯系数后就变成了1\(n+1),一旦有一个是找不到的,所有测试集特征都要分子分母各加。7. 虽然是能计算出来,但是可能会出现D1这个特征没有出现在训练集特征的情况,比如D1=高,恰好A1组相应类型特征对应的数据低,它的概率也会变成0。给定一个测试样本(D1,D2,D3),使用。原创 2023-03-18 22:52:07 · 642 阅读 · 0 评论 -
决策树学习报告
计算划分之后所有子节点的“纯度”信息。对于整体的数据集而言:按照所有的特征属性进行划分操作,对所有划分操作的结果集的“纯度”进行比较,选择“纯度”越高的特征属性作为当前需要分割的数据集进行分割操作。根据属性值的类型进行划分:如果值为离散型,且不生成二叉决策树,则此时一个属性就是可以一个分支,比如:上图数据显示,婚姻状态为一个属性,而下面有三个值,单身、已婚、离婚,则这三个值都可以作为一个分类。但是,事实是不可能将数据分的那么的纯,因此,需要“贪心”策略,力争在每次分割时都比上一次好一些,分的更纯一些。原创 2023-03-11 09:22:03 · 801 阅读 · 0 评论 -
KNN学习报告
的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。即它没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类了。维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离),在二维和。,一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆形是我们待分类的数据。从上图中我们可以看到,图中的数据集是良好的数据,即都打好了。个点投票,于是绿色的这个待分类点属于红色的三角形。原创 2023-03-05 19:53:10 · 890 阅读 · 0 评论 -
机器学习---期望+方差+标准差+协方差
期望,方差,标准差,协方差原创 2022-07-14 17:39:46 · 1243 阅读 · 0 评论 -
机器学习---矩阵求导基础公式+常用公式
机器学习公式原创 2022-07-14 10:15:21 · 305 阅读 · 0 评论 -
机器学习-西瓜书--第一章(2)
机器学习之西瓜书原创 2022-07-07 17:49:27 · 410 阅读 · 0 评论 -
机器学习-西瓜书--第一章(3)
西瓜书原创 2022-07-07 17:35:33 · 687 阅读 · 0 评论 -
机器学习-西瓜书--第一章(1)
西瓜书学习指南原创 2022-07-07 15:55:09 · 2334 阅读 · 0 评论