自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 机器学习面试题集锦!线性回归篇!

为了解决多重共线性问题,可以采取以下方法:1. 检测共线性:使用统计方法,如计算自变量之间的相关系数或方差膨胀因子(VIF),来识别自变量之间的共线性。然而,如果这些假设不成立,可能会影响模型的准确性和可靠性,需要采取相应的方法进行修正或选择其他适用的回归模型。最小二乘法的基本思想是通过调整回归系数的值,使得模型的预测值与观测值之间的残差平方和最小化。较低的MSE表示模型的拟合程度较好。3. 同方差性假设:线性回归假设每个观测值的误差项具有相同的方差,即误差项的方差在自变量的不同取值下保持不变。

2023-10-06 11:03:36 117

原创 基于电子病历的数据挖掘

由于电子病历系统中医学信息自身具有的特殊性和复杂性,与常规数据挖掘相比,电子病历挖掘在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有着更高的要求,要设计出完全符合当前医疗行业统一标准(HL7)的电子病历挖掘系统,需要从事智能信息处理、计算机、应用数学的科研人员与医院信息管理人员、医学专家等多方面人员共同进行进一步的研究。电子病历中的数据类型繁多,由药房数据、实验室数据、影像信息和临床叙述文本信息四大类,包含病人的基本信息、病历资料、病程记录、实验室检查数据、影像信息、出院资料等。

2023-10-06 11:00:54 209

原创 1文轻松入门逻辑回归!

下方的图像展示了来自MNIST数据集的一些训练数字(观测值),其标签已知(标签0-9)。通过定义一个合适的目标函数(例如对数损失函数)并利用优化算法(如梯度下降),我们可以对模型进行训练和参数调整,以使其能够更好地拟合数据并进行准确的分类,能够适应大规模数据和实时应用场景。混淆矩阵:是一个常用的表格,用于描述分类模型(或“分类器”)在一组已知真实值的测试数据上的性能。下面的代码执行了一个训练集和测试集的划分,将数据的75%划分为训练集,25%划分为测试集。通过可视化数据,您可以更好地了解正在处理的数据。

2023-10-06 10:56:00 74

原创 生存分析常用的统计模型

2)人为的分组方式也不一定是最优的;Cox在提出Cox模型的时候,就指出研究数据不符合比例风险假设的可能性,并给出了补偿方法,即把Cox比例风险模型中的时间变量用一个时间函数来代替,拟合协变量风险随时间变化的趋势。随着Cox模型的广泛使用和研究者对比例风险假设的忽视,许多统计学工作者强调验证比例风险假设的重要性,并致力于改进Cox模型,提出了改进的Cox模型,如Aalen additive风险模型、MA-additive风险模型和Accelerated failure time模型等。

2023-10-06 10:51:08 101

原创 福利篇:你无法拒绝的BAT机器学习面试题-3

对于线性模型,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,这样运用梯度下降时候,损失等高线是一个椭圆的形状,这样我想迭代到最优点,就需要很多次迭代,但是如果进行了归一化,那么等高线就是圆形的,那么SGD就会往原点迭代,需要的迭代次数较少。这里的部分只是一个指导性的说明,只有大家自己多实践,多积累项目经验,才会有自己更深刻的认识。另外,注意树模型是不能进行梯度下降的,因为树模型是阶跃的,阶跃点是不可导的,并且求导没意义,所以树模型(回归树)寻找最优点是通过寻找最优分裂点完成的。

2023-10-06 10:48:22 23

原创 逻辑回归入门介绍

线性回归和logistic回归之间的区别在于,线性回归的输出是连续值,可以是任何值,而logistic回归预测一个实例属于给定类别的概率。在Logistic回归中,我们使用阈值的概念,该值定义了0或1的概率。多项式(Multinomial):在多项式Logistic回归中,依赖变量可以有3个或更多个无序的可能类型,例如“猫”,“狗”,或“羊”。有序(Ordinal):在有序Logistic回归中,依赖变量可以有3个或更多个有序的可能类型,例如“低”,“中”,或“高”。(1)打开v搜索:1号程序员,并关注。

2023-10-06 10:45:07 27

原创 逻辑回归基本原理和公式推导

低精确度/高召回率:在我们希望减少假阴性的应用中,而不一定减少假阳性的情况下,我们选择具有低精确度或高召回率值的决策值。高精确度/低召回率:在我们希望减少假阳性的应用中,而不一定减少假阴性的情况下,我们选择具有高精确度或低召回率值的决策值。例如,如果我们要将客户分类为对个性化广告的反应是积极的还是消极的,我们希望非常确定客户对广告的反应是积极的,否则,消极的反应可能会导致失去客户的潜在销售机会。阈值值的决定主要受到精确度和召回率的影响。函数,其中,输入是z,输出是介于0和1之间的概率,即预测的y。

2023-10-06 10:41:08 149

原创 支持向量机入门介绍

在这种类型的数据点中,SVM 的作用是找到最大间隔,就像在先前的数据集中所做的那样,同时每次数据点越过间隔时都会添加一个惩罚项。从上图可以清楚地看出,有多条线(我们这里的超平面是一条线,因为我们只考虑了两个输入特征x1和x2),可以将我们的数据点分开,或者在红色和蓝色圆圈之间进行分类。核函数是支持向量机中使用的数学函数,用于将原始输入数据点映射到高维特征空间,以便即使在原始输入空间中数据点不是线性可分的情况下,也可以轻松找到超平面。较大的C值会施加更严格的惩罚,导致较小的间隔和可能更少的错误分类。

2023-10-06 10:37:36 114

原创 决策树入门介绍

它构建了一个类似流程图的树状结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,每个叶节点(终端节点)包含一个类别标签。分裂准则由提供最大信息增益的特征确定,它用于确定每个树节点上要分裂的最具信息的特征,以创建纯净的子集。决策节点/内部节点(Decision/Internal Node):代表关于输入特征的选择的节点。叶节点/终端节点(Leaf/Terminal Node):没有任何子节点的节点,表示一个类别标签或数值。父节点(Parent Node):分裂成一个或多个子节点的节点。

2023-10-06 09:40:56 25

原创 大模型安全 | 大模型窃取、大模型剽窃

需要注意的是,虽然攻击者无法完全复制LLM模型,但他们可以复制其中的部分模型。对于适用的情况,对API调用进行速率限制和/或过滤器,以降低从LLM应用程序泄露数据的风险,或实施技术来检测来自其他监控系统的(例如数据丢失防护)提取活动。被盗模型可用作影子模型,用于进行对抗性攻击,包括未经授权访问模型中的敏感信息,或在未被检测到的情况下使用对抗性输入进行实验,以进一步注入高级提示。为减轻与LLM模型盗窃相关的风险并保护依赖LLM的个人和组织的利益,采用全面的安全框架,包括访问控制、加密和持续监控,至关重要。

2023-09-29 13:30:40 372

原创 支持向量机基本原理与公式推导

简单来说,核函数进行一些极其复杂的数据转换,然后根据定义的标签或输出,找出了将数据分开的过程。核函数的主要作用是将数据映射到一个更高维度的空间,以便在该空间中找到一个线性或非线性的决策边界,从而能够有效地解决非线性可分问题。不同类型的核函数可以适用于不同类型的数据和问题,以提高SVM在各种应用中的性能。一旦解决了对偶问题并找到了最优的拉格朗日乘子,就可以用这些最优的拉格朗日乘子和支持向量来描述SVM的决策边界。对偶问题:需要找到与支持向量相关的拉格朗日乘子的优化问题的对偶问题可用于解决支持向量机问题。

2023-09-29 13:27:23 51

原创 215篇【大模型医疗】论文合集(附PDF)

通过大规模的数据和模型训练,实现对医疗领域中各种问题的预测、诊断和治疗的应用的医疗大模型,正迎来全新的变局,为了让大家更好的抢占先机,我们整理了2022-2023年大模型及医疗领域的研究文献,供大家学习。ChatGPT的横空出世引发了新一轮生成式大模型热潮,作为最新技术的"试验场",医疗也成为众多大模型的热门首选。回复公众号“1号程序员”的“E011”可以获取下载链接。[关注“1号程序员”,并回复:【E011】],供大家学习和参考。

2023-09-27 23:59:32 124

原创 215篇【大模型医疗】论文合集(附PDF)

通过大规模的数据和模型训练,实现对医疗领域中各种问题的预测、诊断和治疗的应用的医疗大模型,正迎来全新的变局,为了让大家更好的抢占先机,我们整理了2022-2023年大模型及医疗领域的研究文献,供大家学习。ChatGPT的横空出世引发了新一轮生成式大模型热潮,作为最新技术的"试验场",医疗也成为众多大模型的热门首选。,供大家学习和参考。

2023-09-27 23:56:11 311

原创 福利篇:你无法拒绝的BAT机器学习面试题-2

如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。K=N,则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。

2023-09-03 12:31:39 161

原创 福利篇:你无法拒绝的BAT机器学习面试题

我们知道,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。按行并行的LR解决了样本数量的问题,但是实际情况中会存在针对高维特征向量进行逻辑回归的场景(如广告系统中的特征维度高达上亿),仅仅按行进行并行处理,无法满足这类场景的需求,因此还需要按列将高维的特征向量拆分成若干小的向量进行求解。那就问工程,并行化怎么做,有几种并行化方式,读过哪些开源的实现。

2023-09-03 12:25:05 110

原创 一文了解机器学习中分类和回归的差异

分类和回归是数据挖掘和机器学习中常见的两个主要预测问题。《BAT机器学习面试1000题》资料获取方式:第1步:打开微信搜索:1号程序员,并关注。第2步:在对话框中输入:E001,即可获取资源下载地址。

2023-09-03 12:21:13 198

原创 线性回归基本原理和公式推导

在回归中,一组记录具有X和Y值,并且这些值被用于学习一个函数,以便在你想要根据未知的X预测Y时可以使用这个学习到的函数。在回归中,我们需要找到Y的值,因此,在回归的情况下需要一个预测连续Y的函数,而X则作为独立特征。正如我们之前假设的,我们的独立特征是工作经验X,相应的薪水Y是因变量。因此,当我们最终将我们的模型用于预测时,它将根据输入的x值预测y的值。线性回归是一种强大的工具,用于理解和预测变量的行为,然而,为了得到准确可靠的解决方案,它需要满足一些条件。θ1是截距,θ2是输入x的系数。

2023-09-03 12:17:32 844

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除