机器学习系列
文章平均质量分 84
python机器学习系列
python慕遥
这个作者很懒,什么都没留下…
展开
-
Ray框架解析,轻松入门Python分布式机器学习
Ray是一个开源的Python库,专注于并行和分布式计算。上图展示了从宏观角度观察,Ray的生态系统主要由三个关键部分组成:1) Ray系统的核心:提供基础的并行和分布式计算能力2) 可扩展的机器学习库:包括Ray团队开发的原生库,也包括社区贡献的第三方库。3) 工具:用于在各种集群环境或云服务上轻松启动和管理集群。这样的架构设计使Ray能够灵活适应不同的计算需求和环境,为用户提供强大的计算支持。Ray为蚂蚁集团的融合引擎提供了分布式计算基础。原创 2024-04-11 17:13:43 · 1276 阅读 · 0 评论 -
机器学习、深度学习、人工智能的区别与联系
人工智能人工智能是一门研究如何使计算机系统能够执行需要人类智能的任务的科学和工程领域。这包括理解自然语言、感知环境、学习、决策制定等方面的技术。人工智能的主要目标是模拟和复制人类智能的各个方面,使计算机系统能够执行类似于人类的认知和问题解决任务。这包括推理、学习、感知、语言理解等。机器学习机器学习是一种人工智能的分支,关注如何使计算机系统通过从数据中学习模式和规律来改进性能,而无需显式地进行编程。机器学习的目标是使计算机系统具有从经验中学习的能力,以便在面对新的输入时能够做出准确的预测或决策。原创 2024-01-21 19:37:58 · 1260 阅读 · 0 评论 -
探索sklearn中SVM模型的原理及使用案例
大家好,是一种经典的机器学习算法,被广泛应用于分类和回归任务中。在sklearn库中,SVM模型提供了简单易用的API,使得开发者可以方便地应用SVM算法解决实际问题。本文将介绍SVM的原理和在sklearn中的使用案例,帮助大家更好地理解和应用该模型。原创 2024-01-15 15:44:52 · 2372 阅读 · 2 评论 -
sklearn中Naive Bayes的原理及使用案例
大家好,今天本文将介绍sklearn中Naive Bayes的原理及使用案例。原创 2023-12-23 22:46:03 · 801 阅读 · 0 评论 -
使用Scikit-Learn实现多标签分类,助力机器学习
然而,对于多标签预测评估来说,准确率得分存在不足。多标签分类与二元或多类分类不同,在多标签分类中,我们不仅尝试预测一个输出标签,相反,多标签分类会尝试预测尽可能多的适用于输入数据的标签,输出可以是从没有标签到最大数量的可用标签。我们的多标签分类器Hamming Loss模型为0.13,这意味着我们的模型在独立情况下约有13%的错误预测,也就是说每个标签的预测可能有13%的错误。上面的图像显示目标(销售优惠)在二元分类中包含两个标签,在多类分类中包含三个标签,模型会从可用特征中进行训练,然后仅输出一个标签。原创 2023-08-19 20:27:35 · 730 阅读 · 2 评论 -
一文读懂Pandas中独热编码
例如,在这个虚拟数据集中,分类列具有多个字符串值。许多机器学习算法要求输入数据为数值形式,因此需要某种方法将此数据属性转换为与此类算法兼容的形式,本文将分类列分解为多个二进制值列。因此,单个分类列被转换为4个新列,其中只有一个列的值为1,其他3个列的值为0,这就是为什么它被称为独热编码。独热编码是一种数据预处理步骤,用于将分类值转换为兼容的数值表示。当想要对布尔列进行独热编码时,问题就出现了,其创建了两个新列。对于分类列,可以将其分解为多个列,为此本文使用。方法,并将原始数据帧作为数据输入,在。原创 2023-08-16 21:47:23 · 343 阅读 · 0 评论 -
使用强化学习破解迷宫实战
大家好,本文将实现一种强化学习算法来解决迷宫问题,并完成以下步骤:创建迷宫环境、定义迷宫类,以及使用值迭代算法(Value Iteration algorithm)找到穿越迷宫的最优策略。通过使用值迭代(Value Iteration)算法,代理程序可以学习最优的迷宫导航策略,最大化预期的累积奖励,同时避开墙壁并高效地到达目标状态。在本节中,将使用PyGame可视化机器人在迷宫中的导航,将建造墙壁、放置宝藏,并控制玩家的移动,以观察它是如何通过实际操作解决迷宫问题的。将首先定义迷宫类,它将代表迷宫环境。原创 2023-08-05 22:58:38 · 409 阅读 · 1 评论 -
使用Streamlit快速搭建和共享交互式应用
大家好,在数据科学和机器学习领域,向他人展示见解和分享结果与分析本身同样重要,然而创建交互式和用户友好型的应用程序通常需要复杂的框架和耗时的开发过程。Streamlit是一个Python库,它简化了以数据为重点的网络应用程序的创建过程,使开发人员和数据科学家能够快速将他们的想法转化为交互式仪表盘和原型。综上,Streamlit是Python开发人员和数据科学家快速搭建和共享交互式应用程序的革命性工具,其简单性、易用性和快速开发能力使其成为原型设计、展示结果和创建引人入胜的数据体验的理想选择。原创 2023-07-29 22:43:56 · 507 阅读 · 0 评论 -
Safetensors,高效安全易用的深度学习新工具
与其他技术相比,它具有更快、更高效和用户友好的特点,此外它还能确保数据的保密性和安全性,同时支持各种编程语言和平台。强烈推荐在项目中使用Safetensors,许多顶级AI公司,如Hugging Face、EleutherAI和StabilityAI,都在他们的项目中使用了Safetensors。Safetensors针对速度进行了优化,可以高效处理大型张量的序列化和反序列化,因此它是使用大型语言模型的应用程序的绝佳选择。它混合使用了有效的序列化和压缩算法,以减小大型张量的大小,与其他序列化格式(如。原创 2023-07-28 20:56:22 · 5815 阅读 · 1 评论 -
解决分类任务中数据倾斜问题
在实验中,本文使用了Toloka ML平台,它提供了一系列随时可用的模型,可以为ML项目提供一个良好的开端。大家好,在处理文本分类任务时,基准测试流行的自然语言处理架构的性能是建立对可用选项的理解的重要步骤。不过,如果避免特定类的漏检至关重要,可以考虑增加类别的权重,这样可能会提高类别的召回率。平衡的数据集在所有类别中的数据点数大致相同,因此更易于处理,然而现实世界中的数据集往往是不平衡的。在这两种情况下,“垃圾邮件”的召回率都有所下降,这可能是因为“正常邮件”的权重是“垃圾邮件”权重的两倍。原创 2023-07-25 21:32:50 · 1069 阅读 · 0 评论