人工智能(AI)
文章平均质量分 87
分享关于人工智能的内容
甄齐才
倚楼听风雨,淡看江湖路。
展开
-
错误分析 (Machine Learning研习十九)
模型在处理 5 的图像时最常见的错误是将其误判为 8:在所有 5 的图像中,有 10%的图像被误判为 8。我们可能很难理解分类器为什么会犯这样的错误,但请记住,人脑是一个神奇的模式识别系统,我们的视觉系统会在任何信息到达我们的意识之前进行大量复杂的预处理。例如,你可以尝试收集更多看起来像 8 但不是 8 的数字的训练数据,这样分类器就能学会将它们与真正的 8 区分开来。或者,你也可以设计新的特征来帮助分类器–例如,编写一种算法来计算闭合循环的数量(例如,8 有两个,6 有一个,5 没有)。原创 2024-04-10 14:11:48 · 942 阅读 · 0 评论 -
多类别分类器(Machine Learning研习十八)
OvO 的主要优势在于,每个分类器只需在训练集中包含其必须区分的两个类别的部分进行训练。可以看出,分类器对自己的预测不是很有信心:几乎所有的分数都非常负面,而第 3 类的分数为 +1,824 分,第 5 类也不差,为 -1,386 分。要创建一个能将数字图像分为 10 类(从 0 到 9)的系统,一种方法是训练 10 个二进制分类器,每个数字一个(0-检测器、1-检测器、2-检测器,以此类推)。然后,当您想对一幅图像进行分类时,您可以从每个分类器中得到该图像的判定分数,然后选择分类器输出分数最高的类别。原创 2024-04-03 15:44:40 · 1271 阅读 · 0 评论 -
绘制特征曲线-ROC(Machine Learning 研习十七)
它与精确度/召回率曲线非常相似,但 ROC 曲线不是绘制精确度与召回率的关系曲线,而是绘制真阳性率(召回率的另一个名称)与假阳性率(FPR)的关系曲线。例如,如果您查看所有被模型归类为阳性的图像,估计概率在 50%-60%之间,那么其中大约 94% 的图像实际上是阳性的。因此,在这种情况下,模型的估计概率太低了,但模型也可能过于自信。现在,您已经知道如何训练二元分类器、为任务选择合适的指标、使用交叉验证评估分类器、选择适合您需要的精确度/召回率权衡,以及使用多种指标和曲线来比较各种模型。原创 2024-03-29 11:42:40 · 1214 阅读 · 0 评论 -
精确率(召回率)的权衡(Machine Learning研习十六)
因此,使用该阈值,精度为 80%(5 分之 4)。但在 6 个实际的 5 中,分类器仅检测到 4 个,因此召回率为 67%(6 中的 4)。如果提高阈值(将其移动到右侧的箭头),假阳性(6)会变成真阴性,从而提高精度(在本例中高达 100%),但一个真阳性会变成假阴性 ,将召回率降低至 50%。正如您所看到的,创建具有几乎任何您想要的精度的分类器相当容易:只需设置足够高的阈值,就可以了。该图像实际上代表的是 5,当阈值为 0 时分类器会检测到它,但当阈值增加到 3,000 时分类器会错过它。原创 2024-03-21 19:43:49 · 807 阅读 · 0 评论 -
对模型性能进行评估(Machine Learning 研习十五)
在上一篇我们已然训练了一个用于对数字图像识别的模型,但我们目前还不知道该模型在识别数字图像效率如何?所以,本文将对该模型进行评估。原创 2024-03-15 18:26:43 · 934 阅读 · 0 评论 -
图像识别之入门案例之数字识别(Machine Learning 研习十四)
在前面的文章中,我们曾提到最为常见的监督学习任务是回归(预测价值)和分类(预测类别)。我们使用线性回归决策树和随机森林等各种算法探讨了回归任务,即预测房屋价值。现在,我们将把注意力转向分类系统。原创 2024-03-15 17:48:03 · 1153 阅读 · 0 评论 -
微调模型——续(Machine Learning 研习之十三)
现在是项目预启动阶段:您需要展示您的解决方案(突出显示您所学到的内容、有效的内容和无效的内容、做出的假设以及系统的局限性),记录所有内容,并使用以下内容创建精美的演示文稿: 清晰的可视化和易于记忆的陈述(例如,“收入中位数是房价的第一预测指标”)。在这个加州住房示例中,系统的最终性能并不比专家的价格估计好多少,专家的价格估计通常会下降 30%,但启动它可能仍然是一个好主意,特别是如果这样可以释放更多资金 给专家一些时间,以便他们可以从事更有趣、更有成效的任务。如果您监控模型的输入,您可能会更早发现这一点。原创 2024-03-09 17:45:01 · 1028 阅读 · 0 评论 -
微调模型(Machine Learning 研习之十二)
现在正处于百模乱战的时期,对于模型微调,想必您是有所了解了,毕竟国外的大语言模型一开源,国内便纷纷基于该模型进行微调,从而开始宣称领先于某某、超越了谁。可到头来,却让人发现他们套壳了国外大语言模型对外开放的API。好了,我们不说国内各种大模型宣称超过了谁,毕竟,嘴巴长在别人脸上,我们管不了,也管不着,吹牛终将是会露馅的!当我们需要对开源大模型进行微调时,看看有几种方法可以做到这一点的!原创 2024-03-09 14:59:44 · 901 阅读 · 0 评论 -
选择和训练模型(Machine Learning 研习之十一)
当您看到本文标题时,不禁感叹,总算是到了训练模型这一节了。是啊,在之前的文章中,我们对数据进行了探索,以及对一个训练集和一个测试集进行了采样,也编写了一个预处理管道来自动清理,准备您的数据用于机器学习算法,然而现在,我们可以选择并训练模型了。原创 2024-01-14 14:56:25 · 1064 阅读 · 0 评论 -
端到端的机器学习项目之探索数据(Machine Learning 研习之七)
本篇其实是承接上一篇内容,之所以没在上一篇将它写完,那是有原因的,毕竟,本着学习的态度,篇幅不应过长,方能使你有学习的欲望!原创 2023-10-24 19:30:00 · 161 阅读 · 0 评论 -
机器学习中的 Transformation Pipelines(Machine Learning 研习之十)
由于列出所有的列名不是很方便,Scikit-Learn提供了一个make_column_selector()函数,该函数返回一个选择器函数,您可以使用它来自动选择给定类型的所有特性,例如数值型或类别型。最后,我们构造了一个列变换器。它的构造函数需要一个三元组(3-tuple)列表,每个三元组包含一个名称(必须是唯一的且不包含双下划线)、一个转换器和一个应该应用转换器的列的名称(或索引)列表。例如,管道[1]返回管道中的第二个估计值,管道[:-1]返回一个包含除最后一个估计值以外的所有估计值的管道对象。原创 2023-12-11 20:15:00 · 1258 阅读 · 0 评论 -
特征缩放和转换以及自定义Transformers(Machine Learning 研习之九)
虽然Scikit-Learn提供了许多有用的转换器,但您需要编写自己的任务,如自定义转换、清理操作或组合特定属性。对于不需要任何训练的转换,您可以只编写一个函数,该函数接受NumPy数组作为输入,并输出转换后的数组。例如,如前一节所述,通过将具有重尾分布的特征替换为它们的对数(假设特征为正数且尾部位于右侧),通常是一个好主意。inverse_func参数是可选的。它允许您指定一个逆变换函数,例如,如果您计划在TransformedTargetRegressor中使用您的转换器。原创 2023-11-18 20:53:29 · 953 阅读 · 2 评论 -
为机器学习算法准备数据(Machine Learning 研习之八)
在为机器学习算法准备数据之前,您可能需要做的最后一件事是尝试各种属性组合。例如,如果你不知道一个地区有多少住户,那么这个地区的房间总数就不是很有用。你真正想要的是每个家庭的房间数量。同样,卧室总数本身也不是很有用:你可能想对比一下房间的数量。原创 2023-11-05 11:30:06 · 402 阅读 · 0 评论 -
端到端的机器学习项目(Machine Learning 研习之六)
最后,没有连续的数据流进入系统,没有特别的需要来适应快速变化的数据,数据足够小,可以放入内存中,所以普通的批处理学习应该做得很好。这是事实,但你的大脑是一个令人惊奇的模式检测系统,这也意味着它很容易过度拟合:如果你查看测试集,你可能会在测试数据中偶然发现一些看似有趣的模式,从而引导你选择 一种特殊的机器学习模型。如您所见,使用分层抽样生成的测试集的收入类别比例几乎与完整数据集中的收入类别比例相同,而使用纯粹随机抽样生成的测试集是倾斜的。果这是不可能的,那么你可以尝试使用最稳定的功能来建立一个唯一的标识符。原创 2023-10-14 16:55:09 · 644 阅读 · 0 评论 -
机器学习的测试和验证(Machine Learning 研习之五)
在此保留验证过程之后,您可以在完整的训练集(包括验证集)上训练最佳模型,这将为您提供最终模型。在这种情况下,需要记住的最重要的规则是,验证集和测试集都必须尽可能具有生产中预期使用的数据的代表性,因此它们应该完全由有代表性的图片组成:您可以对它们进行洗牌,将一半放在验证集中,另一半放在测试集中(确保在这两个集合中都没有重复或接近重复的数据)。在网络图片上对模型进行培训之后,如果您观察到模型在验证集上的性能令人失望,您将不知道这是因为您的模型超出了培训集,还是仅仅是由于网络图片和移动应用程序图片之间的不匹配。原创 2023-08-26 14:39:38 · 577 阅读 · 0 评论 -
现实生活中机器学习的具体示例(Machine Learning 研习之二)
这些算法尝试保留尽可能多的结构(例如,尝试保持输入空间中的单独簇在可视化中不重叠),以便您可以了解数据的组织方式,并可能识别出意想不到的模式。它可能会注意到,40% 的访问者是喜欢漫画书并通常在放学后阅读您的博客的青少年,而 20% 是喜欢科幻小说并在周末访问的成年人。的一个分支,训练代理(例如机器人)来选择随着时间的推移最大化其奖励的操作(例如,机器人可能会获得奖励) 每当玩家在给定环境(例如游戏)内失去一些生命值时。当然咯,这些标准并不是固化不变的,您总是可以按您自己喜欢的任何方式随意的组合它们。原创 2023-07-22 16:48:18 · 797 阅读 · 0 评论 -
让机器学习不再是过门不入,带您一起详解机器学习(机器学习 Machine Learning 研习之一)
让机器学习不再是过门不入,跟着【秋码】一起研习机器学习(Machine Learning),探究什么是机器学习?以及为何我们要去使用机器学习呢?毕竟未来是属于人工智能(Ai)的,引领潮流的往往是新事物,这一次,您可不要再错过了!抓住它,就等于握住了穿梭未来的时光机。原创 2023-07-15 16:59:02 · 187 阅读 · 0 评论 -
两个月前发布的文章,好端端地审核未通过了,不知CSDN在搞什么鬼啊!
今天突然发现这篇两个月发布的文章,突然被”审核未通过“,这CSDN抽风了,还是这么了,文中也只是教授大家如何注册很火的ChatGPT。原创 2023-02-15 19:49:48 · 355 阅读 · 1 评论