- 博客(400)
- 资源 (22)
- 收藏
- 关注
原创 什么是模型监控?(Valohai)
它使您的 AI 团队能够识别和消除各种问题,包括糟糕的质量预测和糟糕的技术性能。因此,您的机器学习模型可提供最佳性能。一旦 Valohai 从原始日志中解析出指标,就可以使用 Valohai 部署监控 UI 随着时间的推移对其进行可视化,用户可以在其中分析任何选定时间范围的日志和指标。生产中的模型在操作系统级别与 Valohai 通信,这意味着它收集并存储您的进程内部打印的所有内容,无论是错误堆栈跟踪、模型指标还是健康信息。上面的清单将为实施彻底的模型监控提供有价值的考虑,以确保生产中持续不变的性能。
2022-10-20 19:13:45
1897
1
原创 Kubeflow 和 Argo 的综合比较
一些人正在寻找为 ML/MLOps 构建的特定工具,例如:Kubeflow,而另一些人则在寻找更通用的编排器,例如:Argo 或 Airflow,它们可以适用于机器学习工作流。它包括一个用于管理作业的用户界面、一个用于安排多步骤 ML 工作流的引擎、一个用于定义和操作管道的 SDK,以及用于通过 SDK 与系统交互的 Notebooks。当这两种解决方案都是开源的时,采用具有更多功能的解决方案可能是合乎逻辑的,尤其是当它们共享 Kubernetes 作为核心依赖项时。:这是 Argo 中最重要的组件。
2022-10-15 12:29:48
1039
原创 无代码 AI 概览(Levity)
有些工具在非常特定的用户场景中表现出色 - 因为它们就是为此而构建的(例如,如果您尝试使用机器学习供个人使用,Lobe 非常棒,或者如果您主要是在寻找,请查看 Rossum 用于文档处理)。一些从业者指出,在某些情况下,重要的是要记住,一旦您在平台上开发了一个应用程序,只要该应用程序正在运行,您就会一直链接到该平台。我们经常使用“人工智能从基于规则的自动化结束的地方开始”这个短语——从我们的角度来看这是有道理的,但不应该一概而论(有些工具超越了纯粹的自动化,例如,如果是这样,他们通常更适合做这项工作。
2022-10-15 12:27:17
561
原创 无代码人工智能:它是什么,它为什么重要?(Noogata)
如今,大多数企业都在考虑如何变得更加以数据为驱动力,并更好地利用可用的大量数据来做出更有力的决策。关键是如何使用人工智能 (AI) 和机器学习 (ML) 来促进这一点。和Appian的报告显示,高管们对人工智能的潜在影响持积极态度,并致力于识别用户场景和潜在的人工智能解决方案。然而,虽然 AI 和 ML 将从根本上改变许多业务流程,但利用 AI 的力量可能是缓慢、复杂和昂贵的,需要数据科学团队来构建它,并需要数据科学家来使用它。Noogata 的无代码 AI 平台。
2022-10-15 12:26:14
2196
原创 我们为什么创建无代码 AI 平台 Noogata
基于云的数据仓库和数据湖解决方案(BigQuery、RedShift、Synapse、Snowflake、Databricks)、新一代 ETL/ELT 工具(Fivetran、Airbyte、dbt)、自助式分析和整个堆栈中的其他解决方案正在取得进展企业数据团队更容易构建、管理并成为组织的数据保管人,使数据可供整个组织使用和利用。这需要一种新的方法,我们正在采取这种方法。它允许企业为业务用户构建完整的端到端以行动为中心的体验,从收集数据到将模型的输出转换为组织流程(现有流程或仪表板的智能自动化)。
2022-10-15 12:24:20
719
原创 如何将 Apache Airflow 用于机器学习工作流
Apache Airflow 是一个强大的工具,用于创建、调度和监控工作流,但它是为 ETL 任务而构建的。机器学习任务需要特定的资源,并且它们的执行细节应该是版本控制的。如果您有资源来维护 Kubernetes 集群,您可以使用 KubernetesPodOperator 扩展机器学习任务。如果您想专注于构建模型,您可以使用为机器学习任务扩展 Airflow。这样,您还将获得每次执行的自动版本控制。...
2022-08-13 15:57:39
1058
原创 机器学习概念漂移检测方法(Aporia)
目前,有多种技术可用于机器学习检测概念漂移的方法。熟悉这些检测方法是为每个漂移和模型使用正确度量的关键。在本文章中,回顾了四种类型的检测方法:**统计**、**统计过程控制**、**基于时间窗口**和**上下文方法**。......
2022-07-03 21:09:52
3423
原创 设计人工智能产品:技术可能性、用户合意性、商业可行性
随着机器学习逐渐成为数字化产品的主流,了解机器学习的基础知识对许多产品经理来说变得越来越重要。今天的产品人员是一个相当多样化的群体。对于一些人来说,重点主要放在用户体验上(例如,如果主要价值主张围绕着一个杀手级的 UI),而另一些人已经在设计需要深入理解数据和代码的产品。理解机器学习对于频谱的两端都是必要的——只是原因略有不同。对于以 UI 为中心的产品和 PM,模糊逻辑和机器学习功能将从根本上改变用户与产品的交互方式。因此,这些特征的呈现变得非常重要。另一方面,管理 API 或技术平台的产品经理会更关心
2022-06-25 08:30:48
592
原创 机器学习模型监控(Aporia)
机器学习监控是一组用于观察生产中的 ML 模型并确保其性能可靠性的技术。 ML模型通过观察数据集中的示例进行训练,并将代表模型在训练任务中表现的好坏的错误最小化。生产 ML 模型在对开发中的静态样例集进行训练后,对来自不断变化的世界的变化数据进行推理。 开发中的静态训练数据与生产中的动态数据之间的这种差异导致生产模型的性能随着时间的推移而下降。示例:假设您根据 COVID 之前的用户数据检测信用卡欺诈训练了模型。 在大流行病期间,信用卡使用和购买习惯会发生变化。 此类更改可能会使您的模型暴露于模型未训练的分
2022-06-18 17:32:35
1361
原创 机器学习中的概念漂移(Aporia)
随着机器学习模型成为自动化和预测任务越来越流行的解决方案,许多科技公司和数据科学家采用了以下工作范式:数据科学家负责解决特定问题,他们会得到可用相关数据的快照,他们致力于训练模型来解决它。 一旦模型经过测试,它就会进入生产阶段。最终,模型的性能开始下降,这通常是由于概念漂移。概念漂移是指目标变量(模型试图预测的内容)的统计特性随时间以不可预见的方式发生变化的情况。在视觉上,我们可以说概念是一种区分上图中蓝点和绿点的方法。 黑线表示将蓝点和绿点分开的概念。对于下面的定义,我们以下参数表示:漂移类型为了更好地理
2022-06-18 17:25:39
2406
原创 Umang 谈部署可解释机器学习面临的挑战
本文是由 Umang 博士分享关于 ML 可解释性方面面临的挑战。Umang 提到了围绕 XAI(可解释 AI)的文献大幅增长。特别是,旨在“解释”机器学习输出的提议算法的增加。有了这个观察结果,Umang 的团队着手做的事情之一就是研究组织如何使用这些算法。在他们的研究中,他们对来自 30 个不同组织的 50 人进行了半结构化访谈,访谈持续时间在 30 分钟到 2 小时之间。团队意识到需要共享和建立语言来思考可解释的人工智能,以便能够围绕该主题进行这些对话。 Umang 提供以下两个定义:关键点在于,可解
2022-06-03 14:46:59
217
1
原创 Arize AI 对顶级 ML 团队调查得出的 3 个结论
文本重点介绍了 Arize AI 和 MLOps 社区最近对 ML 团队的调查结果。要查看完整结果,请下载报告副本。与 DevOps 或数据工程相比,MLOps 作为一种实践仍然相对年轻,尽管增长巨大。虽然很容易将其与 DevOps 相提并论,因为它的一些最佳实践很容易延续到 MLOps,但业内大多数人都认为,在将 ML 投入生产时存在一系列独特的挑战和需求。不幸的是,很少有可靠的行业调查来记录团队在应对这些不同挑战方面的表现。为了解决这个问题,并让 MLOps 从业者从同行那里获得关于如何专业发展以及交付
2022-06-03 14:36:46
299
原创 Algorithmia 首席执行官 Diego 谈从研发到人工智能的投资回报率
本文 Diego 深入探讨了为什么机器学习项目会失败,以及为什么我们在生产中看不到机器学习,尽管该技术有多么强大。 同时,他也分享了有关将 ML 投入生产的问题的经验。Diego 从一个重要的观点开始。 他指出,机器学习 (ML) 并不等同于生产机器学习。在生产机器学习方面有多个因素需要考虑,而在典型的机器学习方面可能不会考虑。 我们考虑数据收集、建模和准确性,但还有其他重要变量需要考虑:基础设施、与 DevOps 工具的集成以及部署。在生产机器学习方面,集成到软件中是“最终目标”。 生产 ML 是创建最终
2022-06-03 14:33:41
229
原创 浅析云原生模型推理服务框架KServe
简介KServe 提供 一个 Kubernetes 自定义资源定义,用于在任意框架上提供机器学习 (ML) 模型服务。 它旨在通过为常见的 ML 框架(如:Tensorflow、XGBoost、Scikit-Learn、PyTorch 和 ONNX)提供高性能、高度抽象的接口来解决生产模型服务场景。它封装了自动缩放、网络、健康检查和服务配置的复杂性,为您的 ML 部署带来了尖端的服务功能,如:GPU 自动缩放、归零缩放和金丝雀发布等。 它为 Production ML Serving 提供了一个简单、可
2022-05-29 09:25:40
3235
原创 特征平台(Feature Store):您需要知道的关于特征平台的一切信息(Continuous)
特征平台已于 2021 年问世,成为实现 AI 的一项重要技术。 尽管高科技公司对特征平台充满热情,但大多数传统 ML 平台仍然缺少它们,并且在许多企业公司中相对不为人知。在这里,我们将介绍特征平台的常见功能,以及在你自己的工作中采用这种方法的利弊。特征平台是什么?特征平台的定义通常是模棱两可的。我们将首先提供一个具体的定义,然后讨论它的常见的特征和好处。简而言之,特征平台是一种数据管理系统,用于管理和提供机器学习模型的特征。你问什么是特征?用外行的话来说,特征是一种描述性属性,与预测事物在世界中的行
2022-05-29 09:24:01
4585
原创 现代数据栈的未来(Continual)
现代数据栈作为首选云数据架构在科技界迅速崛起,尽管它的受欢迎程度一直在迅速上升,但有时它的定义可能会模棱两可。本文,我们将讨论它是什么,它是如何形成的,以及未来的发展方向。什么是现代数据栈?现代数据栈通常是指组成云原生数据平台的技术集合,通常用于降低运行传统数据平台的复杂性。各个组件不是固定的,但它们通常包括:云数据仓库,例如:Snowflake、Redshift、BigQuery 或 Databricks Delta Lake数据集成服务,例如:Fivetran、Segment 或 Airbyt
2022-05-29 09:20:02
497
原创 MLflow快速入门
安装使用一下命令即可安装 MLflow:pip3 install mlflow# 或者conda install mlflow除此之外,要使用某些 MLflow 模块和功能(如:ML 模型持久化/推理等),您可能需要安装额外的库。 例如,mlflow.tensorflow 模块需要安装 TensorFlow。 有关详细信息,请参阅额外依赖项。另外:MLflow skinny(轻量型 MLflow 套件)也需要为某些 MLflow 模块和功能安装额外的依赖项。 例如,mlflow.set_tra
2022-05-16 16:24:42
4251
原创 浅谈机器学习生命周期平台MLflow
简介MLflow 是一个简化机器学习开发的平台,包括跟踪实验、将代码打包以便于可再现的运行以及共享和部署模型。MLflow 提供了一组轻量级 API,可用于任何现有的机器学习应用程序或库(TensorFlow、PyTorch、XGBoost 等),无论您当前在何处运行 ML 代码(例如:在笔记本电脑、独立应用程序或云平台中)。机器学习工作流程机器学习需要对广泛的数据集、数据准备步骤和算法进行试验,以构建最大化某些目标指标的模型。构建模型后,您还需要将其部署到生产系统,监控其性能,并根据新数据不断对其
2022-05-16 16:19:54
1192
原创 现代数据团队的特征工程(Continual)
特征工程是任何 ML 工作流程的关键部分。 在 Continual 中,我们认为它实际上是 ML 流程中最具影响力的部分,并且应该对其应用最多的人工干预。 然而,在 ML 文献中,该术语经常在几个不同的主题中被过度使用,我们希望为 Continual 的用户提供一些引导以了解该概念。 在本文中,我们将把特征工程分解为几个不同的概念,并为每个概念提供引导。概述特征工程的定义通常含糊不清,这通常会导致数据工作者感到困惑。 究竟什么是特征工程? 简而言之,特征工程是获取原始数据并为机器学习模型构建输入的过程。
2022-05-01 10:16:31
381
原创 浅述MLOps的价值
通过明确定义的获取数据的位置和类型来标准化元数据管理加快了解哪些输入和参数是有效的,哪些是无效的时间。极大地改善了数据科学团队成员之间的协作。这是实验跟踪和模型可重现性的第一步。实现模型注册表(仓库)并将其链接到每个实验生成的其他参数现在您知道了每个模型的训练参数和指标。模型可以直接从模型注册表获取到服务(生产/staging)环境。可以在模型之间快速切换或同时提供多个版本将元数据与生成它的源代码匹配现在您知道了用于生成元数据和训练模型的源代码(实验)。这是模型可重现性的另一个
2022-04-30 00:23:45
515
原创 如何测试你的机器学习流水线?
谈到数据产品,很多时候有一种误解,认为这些产品无法通过自动化来进行测试。 尽管流水线的某些部分由于其实验性和随机性而无法通过传统的测试方法进行测试,但大部分流水线可以。 除此之外,更加不可预测的算法可以通过专门的验证过程。让我们来看看传统的测试方法,以及我们如何将这些方法应用到我们的数据/ ML 流水线中。测试金字塔标准简化的测试金字塔如下所示:这个金字塔表示您将为应用程序编写的测试类型。 我们从大量的单元测试开始,这些单元测试独立于其他功能来测试单个功能。 然后我们编写集成测试来检查将我们隔离的
2022-04-22 23:43:48
1747
原创 AI 产业三大发展趋势(AutoML/MLOps/XAI)将加速企业 AI 应用落地
AI 人工智能高速发展数十年后的现在,企业对于发展 AI 应用的进程,从探索期接续进入构建、扩展及输出的阶段。近期 AI 产业的三大发展趋势:AutoML(自动机器学习)、MLOps(机器学习的开发及运维)及 XAI(可解释性的AI)等解决方案,将加快企业发展智慧化应用的脚步。AutoMLAutoML 解决了过去ML训练及建构模型费时的问题,也缓解AI人才不足困境,几乎 ML 开发过程中的每一重复性环节,都能利用 AutoML 技术来简化,进而缩短上线到生产的时间。一些活跃的开源项目:Neur
2022-04-16 23:45:54
1413
原创 数据优先的人工智能会是下一个颠覆性的大事件吗?(Continual)
现代机器学习 (ML) 平台的起步已经大约有十年的时间了,这一平台的灵感主要来自数据科学家不断增长的基于Python的开源技术生态系统。现在是让我们来回顾已经取得的进展,同时突出企业在现有 ML 平台上存在的主要问题,并讨论下一代平台会是什么样子的好时机。正如我们将要讨论的,我们相信 ML 平台市场的下一个颠覆将是数据优先的 AI 平台的增长。ML 解决方案的基本组件曾经有一段时间,构建机器学习模型需要大量工作(涉及实现您自己的算法,在此过程中编写大量代码,并希望您在将学术工作转化为函数库时不会犯重大错
2022-04-14 23:02:22
697
原创 谷歌工程师谈MLOps :机器学习中的持续交付和自动化流水线
背景数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。现在,有效运用机器学习技术的各种要素都已具备:大型数据集经济实惠的计算资源(按需)适用于各种云平台的机器学习专用加速器不同机器学习研究领域(例如:计算机视觉、NLU 和 推荐系统)的快速发展。因此,许多企业正在投资打造数据科学团队和机器学习功能,以开发出能够为用户带来商业价值的预测模型。MLOps 简述MLOps 是一种旨在统一机器学习系统开发 (Dev) 和机器学习系统运营 (Ops)的机器学习
2022-04-12 23:12:58
1448
原创 数据科学家 Emily Gorcenski 谈数据版本控制(CD4ML)
将机器学习/人工智能/数据科学生产化是一项挑战。不仅机器学习算法的输出经常编写需要合并到现有生产服务中的工件,而且用于开发这些模型的语言和技术通常与构建实际服务时使用的语言和技术大不相同。不仅机器学习算法的输出常常是需要整合到现有生产服务中的编译(compiled)制品,而且,开发这些模型所用的语言和技术通常与构建实际服务所用的语言和技术非常不同。在这篇文章中,我想探讨自由的版本控制机器学习系统如何带来独特的挑战。 我将确定机器学习系统具有版本概念的四个关键轴,以及一些关于如何简化这一概念的简短建议。
2022-04-10 22:18:03
865
原创 软件工程大师 Martin Fowler 谈机器学习持续交付
机器学习应用程序在我们的行业中变得越来越流行,但是与更传统的软件(例如: Web 服务或移动应用程序)相比,开发、部署和持续改进它们的过程更加复杂。 它们会在三个轴上发生变化:代码本身、模型和数据。 他们的行为通常很复杂且难以预测,而且他们更难测试、更难解释、更难改进。 机器学习的持续交付 (CD4ML) 是将持续交付原则和实践引入机器学习应用程序的学科。机器学习持续交付的简介和定义Sculley 等人发表的著名的谷歌论文中谈到:在 2015 年的“机器学习系统中的隐藏技术债务”中,他们强调在现实世界的
2022-04-10 14:41:28
906
原创 DVC 使用案例(四):快速且安全的数据缓存仓库
这是我参与2022首次更文挑战的第17天,活动详情查看:2022首次更文挑战数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。DVC 的内置数据缓存让您可以在全球范围内为整个团队实现一个简单高效的存储层。这种方法有助于:加速从云上的海量对象存储中传输数据,或在不减慢速度的情况下跨多台机器共享数据。只需为快速访问的常用数据付费(升级整个存储平台的成本很高)。当多
2022-04-07 23:25:45
836
原创 BentoML核心概念(四):模型和 Bento 管理
BentoML 提供易于使用的本地和集中式商店来管理模型和bentos。本文重点介绍基于本地文件系统的模型和 bento 商店的使用。 要了解有关集中式商店解决方案的更多信息,请参阅 BentoML Yatai。管理模型创建模型回想一下之前的入门指南,模型是使用特定框架的 save() 函数保存的。 在示例中,我们将 sklearn 模块中的 save() 函数用于 Scikit Learn 框架,具体如下所示。import bentoml.sklearnbentoml.sklearn.sav
2022-04-02 09:13:19
575
原创 BentoML核心概念(三):构建Bentos
Bentos 是 BentoML 服务的布局格式。 Bento 是一个独立(self-contained)的存档,其中包含部署服务所需的所有信息,例如模型、代码、配置和数据文件。Bento 文件结构Bento 遵循目录结构如下所示,下面我们来更详细地研究每个文件和目录。> cd $(bentoml get iris_classifier:latest --path)> ls -lR- README.md- bento.yaml- /apis/ - openapi.yaml
2022-04-02 09:12:38
679
原创 BentoML核心概念(二):API 和 IO 描述符
APIs 是在服务定义中定义的函数,它们作为 HTTP 或 gRPC 端点暴露出去。如果一个函数用 @svc.api 装饰器装饰,它就是 APIs 的一部分。 APIs 可以定义为 Python 中的同步函数或异步协程。 APIs 通过调用服务定义中创建的函数和模型运行器(runners)中的预处理和后处理逻辑来满足请求。同步 API 与异步 API 的对比APIs 可以定义为 Python 中的同步函数或异步协程。 在之前的入门指南中创建的 API 是一个同步 API。BentoML将智能地创建一
2022-04-02 09:10:05
509
原创 BentoML核心概念(一):服务定义
服务定义是面向服务架构(SOA)的体现,是 BentoML 中的核心构建块,用户在其中定义服务运行时架构和模型服务的逻辑。本文将剖析和解释服务定义中的关键组件。让您将全面了解服务定义的组成以及每个关键组件的职责。组成组件在我们之前的快速入门指南中创建的模型服务定义如下所示。# bento.pyimport bentomlimport numpy as npfrom bentoml.io import NumpyNdarray# Load the runner for the latest
2022-04-02 09:08:56
1044
原创 快速入门统一模型部署(Model Serving)框架 BentoML
简述BentoML 是一个用于机器学习模型服务的开源框架,旨在弥合数据科学和 DevOps 之间的差距(gap)。数据科学家可以使用 BentoMl 轻松打包使用任何 ML 框架训练的模型,并重现该模型以用于生产。BentoML 协助管理 BentoML 格式打包的模型,并允许 DevOps 将它们部署为任何云平台上的在线 API 服务端点或离线批量推理作业。为什么选择 BentoML将您的 ML 模型转换为生产就绪 API 非常简单。高性能模型服务,并且全部使用 Python。标准化模型打
2022-03-31 21:19:41
2431
原创 DVC 使用案例(三):机器学习持续集成与持续交互( CI/CD )
将 DevOps 方法应用于机器学习 (MLOps) 和数据管理 (DataOps) 越来越普遍。对于一个完善的 MLOps 平台来说,需要囊括资源编排(为模型训练提供服务器)、模型测试(验证模型推理)、模型部署到生产,以及模型监控和反馈等机器学习生命周期各个环节。 DVC 可以管理数据/模型和重现 ML 流水线,而 CML 可以协助编排、测试以及监控。ML 的 CI/CD(持续集成和持续交付)的主要好处如下:首先,我们可以自动化和强制执行测试。这包括通过特定于应用程序的测试来加强完整性:数据验证
2022-03-31 12:50:36
1403
原创 浅述Java虚拟机(HotSpot)的内存回收细节
之前介绍了如何进行 JVM 内存自动回收以及常见的垃圾收集算法。现在Java应用越做越庞大,光是方法区的大小就常有数百上千兆, 里面的类、 常量等更是恒河沙数。因此,Java虚拟机实现这些算法时,必须对算法的执行效率有严格的考量, 才能保证虚拟机高效运行。今天我们一起来探讨下HotSpot虚拟机如何发起内存回收、 如何加速内存回收, 以及如何保证回收正确性等问题?如何发起内存回收?当前主流的JVM都是采用可达性分析算法通过根节点枚举来找到已经死去的对象。固定可作为GC Roots的节点主要在全局性
2022-03-27 15:29:38
290
原创 浅析JVM中常见的垃圾收集算法
从如何判定对象消亡的角度出发, 垃圾收集算法可以划分为“引用计数式垃圾收集”(ReferenceCounting GC) 和“追踪式垃圾收集”(Tracing GC) 两大类, 这两类也常被称作“直接垃圾收集”和“间接垃圾收集”。由于主流Java虚拟机中均未涉及引用计数式垃圾收集算法,因此,本文所有算法均属于追踪式垃圾收集的范畴。对于JAVA虚拟机来说,不同的垃圾收集器采用了不同的垃圾收集算法。同样,不同的虚拟机,操作内存的方法也各不相同,下面介绍几种常见垃圾收集算法的思想。常见GC的含义部分收
2022-03-26 20:08:38
1011
原创 浅谈JVM中如何自动回收内存
对于从事C、 C++程序开发的开发人员来说, 在内存管理领域, 他们既是拥有最高权力的“皇帝”,又是从事最基础工作的劳动人民——既拥有每一个对象的“所有权”, 又担负着每一个对象生命从开始到终结的维护责任。而对于Java程序员来说, 在虚拟机自动内存管理机制的帮助下,不再需要为每一个new操作去写配对的delete/free代码, 因此,不容易出现内存泄漏和内存溢出问题。今天,我们来聊聊JVM垃圾收集器是如何来回收死去(不可能再被任何途径使用)的对象。通常,垃圾收集需要完成的三件事情:哪些内存
2022-03-26 17:05:25
2591
原创 DVC 使用案例(二):共享数据与模型文件
与 Git 一样,DVC 允许在分布式环境进行协作。 我们可以轻松地将所有数据文件、目录以及匹配的源代码完全一样地导入任何机器。 您需要做的就是为您的 DVC 项目设置远程存储库,并将数据推送到那里,以便其他人可以访问它。 目前 DVC 支持 Amazon S3、Microsoft Azure Blob Storage、Google Drive、Google Cloud Storage、SSH、HDFS 和其他远程存储地址,并且该列表还在持续增长。 (一个完整的列表和配置说明,请参阅 dvc remote
2022-03-26 10:12:27
669
原创 DVC 使用案例(一):数据与模型版本管理
数据科学团队常常面临着数据和机器学习模型进行版本化的数据管理问题。我们应该如何一起跟踪数据、源代码和ML模型中的变化?组织和存储这些文件和目录变更的最佳方式是什么?该领域的另一个问题与簿记有关:如何能够识别过去的数据输入和过程,以了解其结果、进行知识共享或进行调试?数据版本控制(DVC) 允许您在 Git 提交中获取数据和模型的版本,同时将它们存储在本地或云存储中。 同时,它还提供了一种在这些不同数据内容之间切换的机制。结果就是您可以遍历的数据、代码和 ML 模型的单一历史记录DVC 通过编码实现
2022-03-25 21:31:23
1912
原创 浅析JVM几种常见OOM异常原因及解决方案
在《Java虚拟机规范》的规定里,除了程序计数器外,虚拟机内存的其他几个运行时区域都有发生OutOfMemoryError(下文称OOM) 异常的可能。下面我们来谈谈实际工作中出现内存溢出异常时, 我们应该如何根据异常的提示信息迅速得知是哪个区域的内存溢出,以及怎样的代码可能会导致这些区域内存溢出,当出现这些异常后该如何处理?Java堆溢出异常原因Java堆用于储存对象实例,我们只要不断地创建对象,并且保证GC Roots到对象之间有可达路径来避免垃圾回收机制清除这些对象,那么随着对象数量的增加,总
2022-03-24 21:17:10
4911
原创 浅析软件工程中的一些常见设计原则
老子说:有道无术,术尚可求也。有术无道,止于术。如果说设计模式是“术”,那么设计原则就是“道”。今天,我们一起来聊聊软件工程中一些常用的设计原则。DRY 原则(Don’t Repeat Yourself)DRY原则可理解为不要写重复的代码。简单来讲,写代码的时候,如果出现雷同片段,就要想办法把他们提取出来,成为一段独立的代码。DRY 是一个最简单的法则,也是最容易被理解的,但它也可能是最难被应用的(因为要做到这样,我们需要在泛型设计上做相当的努力,这并不是一件容易的事)。它意味着,当在两个或多个地方发
2022-03-24 00:58:27
1211
《ZigBee实战演练》第三版
2014-08-19
OSGi web开发常用jar包
2014-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅