机器学习
文章平均质量分 72
python机器学习
我是小水水啊
静
展开
-
softmax理解
softmax函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持 可导的性质。为了完成这一目标,我们首先对每个未规范化的预测求幂,这样可以确保输出非负。为了确保最终输出的概率值总和为1,我们再让每个求幂后的结果除以它们的总和。原创 2024-03-28 17:12:56 · 238 阅读 · 0 评论 -
机器学习_推荐系统
我们从一个例子开始定义推荐系统的问题。原创 2024-03-20 20:30:03 · 276 阅读 · 0 评论 -
机器学习_聚类(Clustering)
你经常跟哪些人联系,而这些人又经常给哪些人发邮件,由此找到关系密切的人群。因此,这可能需要另一个聚类算法,你希望用它发现社交网络中关系密切的朋友。原创 2024-03-20 19:39:57 · 555 阅读 · 0 评论 -
支持向量机(SVM)
如果我们有两个数据,要让你画一根直线你需要怎么划分他们呢?上面画了三根直线来划分它,那如果是高纬度呢?怎么用高于三个维度的 超维度平面来区分这些呢?我们用二维数据来介绍一下,因为区分二维数据的方法有很多,就像我们上一个章节把两类划分,用了蓝色,红色,绿色,但是他们的间隔差距就不一样.(就如这个下面的图)这个间隔的正中,就是我们的决策边界.当有数据需要判断的时候,我们就根据它的相对决策边界的相对位置,来进行判断分类.原创 2024-03-20 19:20:27 · 665 阅读 · 0 评论 -
机器学习_类偏斜的误差度量
偏斜类(skewed classes)的问题。类偏斜情况表现为我们的训练集中有非常多的同一种类的实例,只有很少或没有其他类的实例。例如:我们希望用算法来预测癌症是否是恶性的,在我们的训练集中,只有 0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法,在所有情况下都预测肿瘤是良性的,那么误差只有 0.5%。然而我们通过训练而得到的神经网络算法却有 1%的误差。这时,误差的大小是不能视为评判算法效果的依据的。正确肯定(True Positive,TP):预测为真,实际为真。原创 2024-03-20 15:33:22 · 470 阅读 · 0 评论 -
机器学习_自我总结
我只是一个小白,很多东西写不好,也不是很懂只是记一下笔记对自己的映像更深,也希望有人能够指导我学习(谢谢!)诊断偏差和方差训练集误差和交叉验证集误差近似时:偏差/欠拟合交叉验证集误差远大于训练集误差时:方差/过拟合神经网络的方差和偏差:使用较小的神经网络,类似于参数较少的情况,容易导致高偏差和欠拟合,但计算代价较小使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算代价比较大,但是可以通过正则化手段来调整而更加适应数据。原创 2024-03-20 15:07:20 · 468 阅读 · 0 评论 -
机器学习_神经网络
为了构建神经网络模型,我们需要首先思考大脑中的神经网络是怎样的?每一个神经元都可以被认为是一个处理单元/神经核,它含有许多输入/树突,并且有一个输出/轴突。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。我们设计出了类似于神经元的神经网络,效果如下:其中𝑥1, 𝑥2, 𝑥3是输入单元(input units),我们将原始数据输入给它们。𝑎1, 𝑎2, 𝑎3是中间单元,它们负责将数据进行处理,然后呈递到下一层。最后是输出单元,它负责计算ℎ𝜃(𝑥)。原创 2024-03-20 14:21:49 · 616 阅读 · 0 评论 -
机器学习_正则化
第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。出,若给出一个新的值使之预测,它将表现的很差,是过拟合,虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好;而中间的模型似乎最合适。如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。就以多项式理解,𝑥 的次数越高,拟合的越好,但相应的预测的能力就可能变差。原创 2024-03-18 13:54:08 · 495 阅读 · 0 评论 -
机器学习_聚类(k-means)
文章目录聚类步骤k-means APIKmeans性能评估指标Kmeans性能评估指标API聚类步骤k-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。1.首先,随机设K个特征空间内的点作为初始的聚类中心。2.然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为这个聚类中心。3.接着,在所有的数据都被标记过聚类中心之后,根据这些数据新分配的类簇,通过取分配给每个先前质心的所有样本的平均值来创建新的质原创 2024-03-18 10:36:20 · 1088 阅读 · 0 评论 -
机器学习_逻辑回归
文章目录原创 2024-03-18 10:35:49 · 298 阅读 · 0 评论 -
机器学习-逻辑回归
逻辑回归是用与分类问题的 ,比如说 一个人是否 是男的,要么是 要么不是.原创 2024-03-17 20:59:39 · 656 阅读 · 1 评论 -
机器学习_线性回归
文章目录线性回归的定义损失函数(误差大小)梯度下降算法梯度下降的API(LinearRegression)最小二乘法之正规方程线性回归的定义线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。优点:结果易于理解,计算不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型对于单变量线性回归,例如:前面房价原创 2024-03-17 20:48:46 · 908 阅读 · 0 评论 -
机器学习-线性回归
我想找到它的最小值,首先初始化我的梯度下降算法,在那个品红色的点初始化,如果我更新一步梯度下降,也许它会带我到这个点,因为这个点的导数是相当陡的。然后我想再梯度下降一步,在这个绿点,我自然会用一个稍微跟刚才在那个品红点时比,再小一点的一步,到了新的红色点,更接近全局最低点了,因此这点的导数会比在绿点时更小。然后你就可以联想到,如果是其他参数很多的时候 这个时候你就可以把X 想象成一个向量,你自己也就可以拥有跟多的参数,而原理和上面的两个参数的原理也是一样的了.(如何实现它能够尽量的接近呢?原创 2024-03-17 20:23:25 · 1541 阅读 · 1 评论 -
机器学习——代价敏感错误率与代价曲线
首先,你需要明确定义每种错误分类的代价。代价矩阵(cost matrix)是一个二维矩阵,其中的每个元素表示将真实类别i的样本错误地分类为类别j的代价。这个矩阵应该根据你的问题领域和需求来定义。原创 2023-10-27 01:53:06 · 1863 阅读 · 2 评论 -
机器学习之ROC与AUC
ROC(Receiver Operating Characteristic)曲线和AUC(Area Under the ROC Curve)是用于评估二分类模型性能的重要工具。原创 2023-10-26 03:05:24 · 657 阅读 · 0 评论 -
机器学习之查准率、查全率与F1
定义: 查准率是指在所有被分类为正类别的样本中,有多少比例的样本实际上是正类别的。应用场景: 当我们关心的是确保被模型预测为正类别的样本确实是正类别时,例如在医学诊断中,确保模型预测为患有某种疾病的患者确实患有该疾病。定义: 查全率是指在所有实际正类别的样本中,有多少比例的样本被模型成功地预测为了正类别。应用场景: 当我们关心的是确保所有真实正类别的样本都被模型找出来时,例如在安全检查中,确保所有危险品都被检测出来。查准率表示在所有被模型预测为正类别的样本中,有多少比例的样本实际上是正类别的。原创 2023-10-26 02:09:19 · 4862 阅读 · 1 评论 -
机器学习-模型评估与选择
在机器学习中,我们通常面临两个主要问题:欠拟合和过拟合。欠拟合指模型无法在训练数据上获得足够低的误差,通常是因为模型太简单,无法捕捉数据中的复杂关系。过拟合则是指模型在训练数据上表现得很好,但在新数据上表现不佳,通常是因为模型太复杂,学习到了训练数据中的噪声和细节,而不是真正的模式。原创 2023-10-25 01:59:38 · 739 阅读 · 1 评论 -
Apriori关联规则算法
实现购物篮分析# 这里是吧每一个数据加上一个','df1['Goods'] = df1['Goods'].apply(lambda x:','+x) # 这里是将所有买的物品的字符串合在一起df4=df1.groupby('id').sum()# 把分好的物品变为列表df4["Goods"]=df4["Goods"].apply(lambda x:x[1:].split(","))上面的操作就是为了实现下面的 表这下面写的是 相关性分析的函数data=list(df4.Goods)原创 2022-10-24 12:21:05 · 143 阅读 · 0 评论