自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(176)
  • 收藏
  • 关注

原创 使用 Elementary 实现开源数据可观测性 — 从零到精通(第一部分)

在这篇由两部分组成的文章中,我们将重点介绍 Elementary 的开源版本,它是这些数据可观测性平台之一,专为 dbt 量身定制并旨在与 dbt 无缝协作。我监控了 24 个表,所有配置和检查的测试都是 dbt 测试,如果配置了 Elementary 的新鲜度或容量测试,它们将显示在第一个视觉效果的第二行中。简单来说,如果您想创建一份通用的基本报告,以下代码将生成一份 HTML 文件形式的报告: edr 报告 在您的 CLI 上,这将使用我们在前面步骤中提供的连接配置文件访问您的数据仓库。

2024-09-11 14:32:12 712

原创 线性规划优化:单纯形法

欢迎来到雲闪世界。到目前为止,本系列已经介绍了线性规划的基础知识。在本文中,我们将从基本概念转向底层细节!本文将介绍单纯形法,这是通常用于解决线性规划问题的算法。虽然我们将使用单纯形法手动解决一个简单的线性规划示例,但我们的重点是算法的直觉,而不是记住算法步骤(我们有计算机来做这种事情!)。以下是我们将要介绍的内容: 为什么需要单纯形法 从图形解决方案转向代数解决方案 用一个简单的例子来演示单纯形法的工作原理 为什么需要单纯形法 在本系列的第一篇文章中,

2024-09-11 14:18:11 312

原创 使用 CloudFront 将您的 Angular 应用程序托管为 AWS S3 网站

除了 S3 网站托管之外,AWS 还提供了轻松将其连接到 CloudFront 的可能性,CloudFront 是一种快速内容分发网络 (CDN) 服务,可以在全球范围内安全地以低延迟和高速度交付您的网站。在这个故事中,我将向您展示如何使用 Terraform 轻松地在 AWS 中创建基础设施,并使用 GitHub Actions 将 Angular 应用程序部署到 S3。在这里,我们定义我们的 S3 存储桶,启用公共访问,设置存储桶策略以允许所有资源中的 GET,并将存储桶设置为静态网站主机。

2024-09-11 13:45:33 829

原创 Python 中混淆矩阵的热图

在我们的例子中,我们只能看到一个不同的值,即 None 类的真阳性数,其他类(狗和猪)也是如此,而其余类别看起来相同。为了提高可读性并在运行之间保持相同的顺序,我们将多数类(无)作为第一个元素并对剩余的标签进行排序(第二行)。然而,正确的图表可能会显著提高我们数据的可读性和可访问性,尤其是当我们向不像我们那么熟悉这些数据的客户展示数据时。第一个是显示大数字的方式很奇怪,另一个是 0 的数量太多,导致图难以阅读。我们可以看到标签的一个问题。请记住,用于演示混淆矩阵的数据是人工的,并不代表任何真实的分类模型。

2024-09-09 11:11:57 754

原创 面向 AI 学习者的 Python 快速入门(初学者)

虽然我还有很多关于软件开发的知识需要学习,但根据我的个人经验,我在这里介绍了我认为 Python 对于 AI/数据科学项目的基本要求。这加快了我的进度,并让我在探索新技术堆栈时更有信心。如果您有喜欢的IDE(例如,集成开发环境),请使用它打开这个新文件夹并创建一个新的 Python 文件,例如,my-script.py。相反,它是一个单独的 Python 脚本,定义了一个变量my_sk,该变量是一个由我的 OpenAI API 密钥组成的字符串,即允许使用 OpenAI API 的唯一(和秘密)令牌。

2024-09-09 11:01:10 1353

原创 如何在 AWS S3 中设置跨区域复制

概述。

2024-09-07 11:35:15 1429

原创 永远学习:为什么人工智能难以适应新挑战

与此同时,作者训练从头开始在所有可用类别上训练的模型(如果模型首先在五个类别上进行训练,然后在第二次迭代中在另外 5 个类别上进行训练,则从头开始的模型直接在 10 个类别上进行训练)在训练过程中,在失去可塑性的同时,恒定单位的比例也在增加。直到最近我们才知道原因;它是一种简单的方法,并且计算量不大,它重新初始化通常贡献较小的神经元(这些神经元通常是在试图减小模型尺寸的技术中被修剪的神经元)。理想情况下,这个新的训练过程是从昨天的模型的参数初始化的,也就是说,它是从这些参数“热启动”的,而不是重新初始化。

2024-09-07 11:13:06 827

原创 机器学习模型中的因果关系:引入单调约束

我们的 ML 模型的一个理想特性是,在我们改善房屋状况后,模型应该预测一个大于或等于原始值的值。在我们的案例中,我们当然无法改变房屋的面积。事实上,因果模型在商业中具有很高的价值,因为它们为“假设”情景提供了更可靠的估计,特别是在用于做出影响业务结果的决策时。因此,让我们以数据点(面积为 3,000 平方英尺且状况评级为 5 的房屋)为例,并可视化我们希望模型捕捉到的这个属性。基于我们所说的,我们需要在称为“整体状况”的特征上添加“+1”单调约束,以确保更好的分数始终对应于更高或相同的价格。

2024-09-07 10:54:01 906

原创 聚类算法指南

提到聚类,大多数人首先想到的是基于质心的聚类。这是使用一定数量的质心(中心)对数据点进行聚类的“传统”方法,根据数据点与每个质心的距离对数据点进行分组。K-Means 是最广泛使用的聚类算法,很可能是您作为数据科学家学习的第一个算法。如上所述,目标是最小化数据点与聚类质心之间的距离总和,以确定每个数据点应属于的正确组。虽然基于质心的算法在球形聚类中表现更好,但基于密度的算法可以采用任意形状,并且更灵活。虽然聚类是数据科学领域中一种众所周知且广泛使用的技术,但有些人可能不知道不同类型的聚类算法。

2024-09-07 10:47:37 751

原创 使用 Python 实现粒子群优化的理论与实践

如果你愿意的话,这与《怪奇物语》等节目中的情况非常相似,其中有一个敌​​人需要打败,所有角色都齐心协力,用他们拥有的所有手段互相交谈。如果是真实空间,我们的“域”可以是我们生活的 3D 空间,但它确实可以比这大得多。因此,我们可以看到,我们的小 PSO 不仅在存在一个明显最小值的情况下达到最小值,而且即使在更复杂且具有多个局部最小值的情况下,它也能达到全局。将获得收敛的 .GIF,这意味着您将看到全局最小移动、每次迭代的迭代(非常酷的东西,您将在一秒钟内看到它)。好吧,那么,这背后的想法是什么?

2024-09-07 10:37:01 843

原创 成功之路:如何获得机器学习和数据科学实习机会

突出你解决的问题、你使用的方法和结果。讨论你面临的任何挑战以及你是如何克服这些挑战的。我在国外完成的两次实习是我职业生涯起步的关键,我希望我分享的技巧和建议也能帮助你做到这一点!就我个人而言,我使用过 Udemy 和 Coursera,但 DataCamp 对于获得更实用、更实际的动手技能特别有效。如果招聘人员会测试你的概念而不是硬技能,你可以查看数据科学/机器学习中最常见的问题。获得数据科学或机器学习领域的实习机会似乎是一项艰巨的任务,但只要有正确的策略和坚持,它绝对可以实现!成长机会的一种方式。

2024-09-05 11:39:32 970

原创 自动化提示工程:权威实用指南

我们可以将相同的原则应用于 APE,但我们首先需要解决的事实是,提示是一种不同类型的超参数,因为它是基于文本的。但是,如果我们有一个永不疲倦的工具,能够生成无数各种风格的提示,同时不断改进它们,那会怎样?OPRO 会跟踪所有之前提示的分数,并根据它们在优化轨迹中的表现对这些提示历史进行排序,这成为一个宝贵的信息来源,可引导优化器 LLM 找到更有效的提示。正如我们现在所看到的,设计有效的提示可以显著影响 LLM 的表现,但手动调整和试验的过程可能非常耗时,而且难以扩展。当然,我们的实现只是一个起点。

2024-09-05 00:02:01 1500

原创 面向图像、视频和时间序列的 Mamba 状态空间模型(第一部分)

添加图片注释,不超过 140 字(可选)欢迎来到雲闪世界。这是我的新系列🐍面向图像、视频和时间序列的 Mamba 状态空间模型的第一部分。 是Mamba 就是你所需要的一切?当然,人们长期以来一直认为,A. Vaswani 等人在 2017 年的Attention 中提出的 Transformer 架构就是你所需要的一切。毫无疑问,Transformer 一次又一次地彻底改变了深度学习领域。它的通用架构可以轻松适应各种数据模式,例如文本、图像、视频和时间序列,而且似乎你投入到 Transform

2024-09-04 12:14:30 1085

原创 结构化状态空间模型的直观解释(第二部分)

第 2 部分 - 面向图像、视频和时间序列的 Mamba 状态空间模型(欢迎来到雲闪世界。)添加图片注释,不超过 140 字(可选)年代状态空间模型几十年来为许多工程学科所熟知,现在在深度学习中首次亮相。在我们探索 Mamba 选择性状态空间模型及其最新研究成果的过程中,了解状态空间模型至关重要。而且,正如工程中经常出现的情况一样,正是细节让理论概念在实践中得以应用。除了状态空间模型之外,我们还必须讨论如何将它们应用于序列数据、如何处理长距离依赖关系以及如何通过利用某些矩阵结构来有效地训练它

2024-09-04 12:03:11 875

原创 Mamba 来了:选择性状态空间模型(第三部分)

第 3 部分 - 面向图像、视频和时间序列的 Mamba 状态空间模型添加图片注释,不超过 140 字(可选)米amba,这个被认为可以取代强大的 Transformer 的模型,从最初在深度学习中使用状态空间模型 (SSM) 的想法已经走了很长一段路。Mamba 为状态空间模型添加了选择性,从而实现了与 Transformer 类似的性能,同时保持了 SSM 的亚二次工作复杂度。其高效的选择性扫描比标准实现快 40 倍,并且与 Transformer 相比,吞吐量可提高 5 倍。与

2024-09-04 09:28:28 993

原创 使用 IOpipe CLI 进行 Lambda 层管理

使用以下命令获取这些函数的列表,该命令还会告知您 IOpipe 在这些函数上的状态: iopipe lambda list 请注意,CLI 目前无法检测某个函数是否已使用非基于层的方法手动使用 IOpipe 进行检测。将 IOpipe 安装到函数 要在函数上安装 IOpipe,请执行: iopipe lambda install -f <function-arn> 此命令通过添加层、添加环境变量来安装 IOpipe,同时还更改函数的入口点处理程序。批量安装和更新 IOpipe CLI 专为脚本化而设计。

2024-09-03 13:12:22 908

原创 使用 ELK Stack 进行云原生日志记录和监控:AWS 中的开发运营方法

使用 Kibana aws ec2 run-instances --image-id ami-0c3fd0f5d33134a76 --instance-type t2.micro \启动 EC2 实例--image-id ami- 0 c3fd0f5d33134a76 --instance-type t2 .micro \ --key-name your-key-pair-name --security-group-ids sg-xxxxxxx --subnet-id subnet-xxxxxxx。

2024-09-03 12:54:59 1910

原创 简化物业数据管理:使用 Indexify 进行高级数据提取和检索

我们以房地产行业为例,介绍了 Indexify 如何为需要更深入实时分析的应用程序实现高效的数据提取和检索。我们详细介绍了 Indexify 的工作原理,包括如何构建数据检索知识库。此外,我们还研究了如何扩展系统以获得更大的数据集和更高的吞吐量。最后,我们讨论了将结果存储在结构化数据库中以供将来参考和深入分析的方法。完整代码可在。

2024-09-03 12:26:22 857

原创 构建可扩展的数据平台(数据平台设计中的数据网格趋势)

添加图片注释,不超过 140 字(可选)欢迎来到雲闪世界。在本文中,我旨在深入研究各种类型的数据平台架构,更好地了解它们的演变、优势、劣势和实际应用。重点是数据网格架构、它在现代数据堆栈 (MDS) 中的作用以及当今的数据驱动格局。众所周知,数据平台的架构对其性能和可扩展性有深远影响。挑战通常在于选择最符合您特定业务需求的架构。鉴于当今市场上有如此多的数据工具,人们很容易迷失方向。我时不时看到的有关这个主题的互联网文章往往具有高度推测性。关于哪些工具最好、谁引领行业以及如何做出正确选择的

2024-09-03 12:05:52 1036

原创 如何通过更好的采样参数来提高 LLM 响应率

上图显示了模型的输出分布,我在 20% 的阈值处画了一条红线,将图分为底部的 top-p 个 token 和顶部的其余 token。但是,如果我们运气不好,top_k 可能会删除太多好的候选,或者删除不够多的坏的候选。上图显示了模型的输出概率,下图显示了 top-k 截断和重新缩放后的概率。温度采样的替代方法是核心采样,其中模型考虑具有 top_p 概率质量的标记的结果。有了这些参数,模型将。从该概率分布中抽取一个标记后,我们可以将选定的标记附加到我们的输入提示中,以便 LLM 可以输出下一个标记的概率。

2024-09-03 09:35:59 891

原创 使用 Cloudflare R2 代替 AWS S3……

4. AWS S3 定价 ∘ AWS S3 定价详情 (美国东部 - 弗吉尼亚北部地区) 5. Cloudflare R2 定价 ∘ Cloudflare R2 定价详情 (美国地区) 6.免费套餐:AWS S3 与 Cloudflare R2 ∘ AWS S3 免费套餐 ∘ Cloudflare R2 免费套餐 7.哪个免费套餐更好?在这篇博文中,我们将深入探讨 AWS S3 和 Cloudflare R2 提供的功能、它们的定价结构、它们的比较,并帮助您确定哪一个最适合您的需求。

2024-09-02 09:27:47 1365

原创 AWS S3 与 Azure Blob 存储:数据科学家的观点

对于从事 NLP 项目的数据科学家来说,S3 的稳健性和广泛的 SDK 支持使其成为存储和访问大型数据集(如机器学习模型的语料库)的绝佳选择。在云存储解决方案领域,AWS S3 和 Azure Blob Storage 是两种领先的服务,可提供可扩展、安全且高效的方式来管理大量数据。AWS S3 和 Azure Blob Storage 都为数据科学家提供了引人注目的功能,尤其是那些专门从事 NLP 和机器学习的数据科学家。它们之间的选择通常取决于特定的项目要求、现有的云基础设施和预算限制。

2024-09-02 09:11:19 1093

原创 彻底改变计算机视觉的 Vision Transformer (ViT) 综合指南(视觉转换器终极指南)

Vision Transformer 由 Alexey Dosovitskiy 等人 (Google Brain) 于 2021 年在论文《一张图片价值 16×16 个字》中提出。当时,Transformers 已被证明是实现 NLP 任务出色性能的关键,并于 2017 年在必读论文《注意力就是你所需要的一切》中提出。2017 年至 2021 年间,曾有多次尝试将注意力机制集成到卷积神经网络 (CNN) 中。然而,这些尝试大多是混合模型(将 CNN 层与注意力层相结合),缺乏可扩展性。

2024-09-02 08:56:09 1164

原创 监控 Amazon EventBridge 规则

对于记录的每个指标,其支持的维度都列在“EventBridge 指标”表的“维度”下。指标SuccessfulInvocationAttempts听起来很理想,但它面临着同样的问题RetryInvocationAttempts:在撰写本文时,没有维度可以按特定规则名称细分此指标,因此除非您的帐户只有一条规则,否则提供的价值有限。这在规则重试策略不可配置的情况下尤其成问题:如果规则最多可以重试 24 小时,而我们无法缩短此间隔,那么如果不依赖下游消费者的指标,我们可能无法轻易观察到 24 小时内的失败。

2024-09-02 08:48:43 1040

原创 2024 年将使用 iPad 进行数据科学

无可否认,这种组合对我来说很新颖,但我对它的潜力感到非常兴奋。您可能还记得我 2021 年的帖子,我使用 Textastic 作为我的本地 IDE,虽然 Textastic 仍然相当不错,但我个人最近正在使用这个 Code 应用程序。需要说明的是,这一切都是基于浏览器的,没有官方应用程序,但 iPad 上的 Kaggle 笔记本体验仍然非常好。正如我在介绍中提到的那样,iPad 仍然在很大程度上受到 iPadOS 功能的限制,这令人失望,因为最新的 iPad Pro 配备了超高速的 M4 处理器。

2024-09-02 08:28:52 1189

原创 AWS 上配置 Paloalto GlobalProtect

欢迎来到。本篇文档介绍了在 AWS 上配置 Palo Alto GlobalProtect VPN 的完整流程。内容包括实例启动和初始化、防火墙接口配置、证书创建、认证方式设置、区域和地址池的建立、VPN 网关和门户的配置、客户端安装和连接测试、安全策略及 NAT 配置、保留客户端原始 IP 地址的 Ghost Pool 方法,以及主机信息收集(HIP)与授权许可的应用。一、AWS 启动 Paloalto 实例二、Paloalto 实例初始化三、Paloalto 配置 GlobalProtect。

2024-08-31 23:18:09 1274

原创 AWS-亚马逊网络服务(基础服务)-AWS 定价计算器-概述与动手部署:

让我们看看如何使用和配置 AWS 定价计算器来计算 EC2 的成本,操作系统为 Linux, 实例系列为 t3.large, 实例类型成本计划为按需, 快照为每日, EBS-100GB, 详细监控为已启用。AWS 定价计算器是 Amazon Web Services (AWS) 提供的基于 Web 的工具,可帮助用户估算其特定用例的 AWS 服务成本。用户可以选择单个 AWS 服务,如 EC2、S3、RDS、Lambda 等,并自定义其配置以查看详细的成本明细。6- 租户允许共享,操作系统为 Linux。

2024-08-31 10:59:19 901

原创 云计算的成本:您需要了解的 AWS 定价信息

AWS 定价方案、免费套餐优惠以及通过预先预留容量来降低总体成本的选项。欢迎来到。越来越多的企业开始转向云基础设施而非本地数据中心,云领域的竞争空前激烈。主要参与者甚至不惜削减成本并提供令人难以置信的折扣,以在云市场中占据一席之地。在本文中,我们将介绍云的成本。我们将重点介绍 AWS,它是目前最受欢迎的云供应商之一。我们还将讨论各种 AWS 定价方案、免费套餐优惠以及通过预先预留容量来降低总体成本的选项。

2024-08-31 10:47:14 1472

原创 ChatGPT、Claude 和 Gemini 在数据分析方面的合作(第 3 部分):机器学习的最佳 AI 助手

当我问它会选择什么具体模型时,它回答说,考虑到不平衡的数据集、捕捉复杂模式的能力、对特征重要性的洞察以及高效且良好的性能。我想提出的另一个非常重要的问题是,Claude 在早期步骤中创建了基于频率的特征(例如transaction_count_per_customer,unique_recipients_per_customer)。然而,这些特征是在训练和测试分割之前基于完整数据集计算的,这会导致潜在的数据泄露。(不幸的是,在我的整个测试中,Gemini 是这三种 AI 工具中最不稳定的。

2024-08-31 10:23:32 1440

原创 如何处理时间序列异常值?理解、检测和替换时间序列中的异常值

(欢迎来到异常值是与正常行为有显著偏差的观察结果。时间序列可能会因某些异常和非重复事件而出现异常值。这些异常值会影响时间序列分析,并误导从业者得出错误的结论或有缺陷的预测。因此,识别和处理异常值是确保时间序列建模可靠性的关键步骤。在时间序列中,异常值通常分为两种类型:加性异常值和创新异常值。

2024-08-31 10:01:55 1135

原创 在编程中更智能地使用人工智能

我没有找到太多研究来支持这个想法,但经过测试的代码比未经测试的代码更可靠,这是显而易见的,这正是 Micro Agent 所实现的。它之所以能发挥作用,是因为开发人员创建了专门的工具,专注于审查代码库、识别问题,然后进行必要的更改。许多程序员,尤其是经验丰富的程序员,不仅不使用 AI 生成的代码,还禁止他们的团队这样做。我我将以开发人员 AI 时的两个主要问题作为本文的开端,并提出四种可靠的 AI 解决方案,无论您是哪种开发人员,这些解决方案都会在使用 LLM 时将您与普通程序员区分开来。

2024-08-30 11:20:07 1051

原创 Pandas 绘图的强大之处:后端

需要安装的特定依赖 pd.options.plotting.backend = 'hvplot' # 后端修改 data = np.random.normal(size=[ 50 , 2 ]) df = pd.DataFrame(data, columns=[ 'x' , 'y' ]) df.plot(kind= 'scatter' , x= 'x' , y= 'y' ) # 绘图 2.1. Matplotlib Matplotlib是 Pandas 的默认可视化后端。“bar” 表示垂直条形图,

2024-08-30 11:01:32 760

原创 缓存解决方案。Redis 和 Amazon ElastiCache 比较

但是,如果您希望降低成本并更好地控制 Redis 实例,那么自托管 Redis 可能是一种选择,尽管它需要更多的手动设置和管理。自托管 Redis 实例需要手动维护,包括修补、扩展和备份。最终,Redis 和 Amazon ElastiCache 之间的选择取决于您的具体要求、预算和专业知识。成本效益取决于各种因素,例如使用情况、实例类型、数据量以及您管理自托管 Redis 实例的能力。Amazon ElastiCache 的维护更简单,因为它将许多操作任务卸载到 AWS,包括备份、扩展和更新。

2024-08-29 15:51:51 749

原创 停止在 AWS 中使用 SSH!原因如下!DevSecOps 视角

AWS Systems Manager 是您的 AWS 应用程序和资源的运营中心,也是混合和多云环境的安全端到端管理解决方案,可实现大规模安全运营。

2024-08-29 15:30:36 1313

原创 亚马逊aws的弹性与可扩展性解析

AWS 自动扩展是 AWS 的一项功能,允许您根据一系列触发器自动扩展 EC2 实例。如果您的应用程序在高峰时段需要大量资源,而在非高峰时段需要较少资源,那么此功能尤其有用。可扩展性是指系统、网络或流程处理不断增长的工作量的能力,或以各种方式扩大其潜力的能力。弹性是指应用程序根据需求扩展或缩小的速度,而可扩展性是指系统处理负载的能力。弹性和可扩展性是在云上构建应用程序时需要考虑的两个关键因素。水平扩展设计:云计算最显著的优势之一是能够使用可轻松跨多个实例复制的分布式架构来扩展您的应用程序。

2024-08-29 09:50:39 994

原创 DSLP——改变我团队的数据科学项目管理框架

这个问题成为您自己或任何需要有关该项目信息的人的第一个关注点,并且在其他步骤中创建的任何问题都应与此问题相关联(我们将在后面的示例中看到这有多么容易)。一旦你理解了你的数据以及它与你的问题的关系,实验问题就会用于你要进行的建模。它可以作为审计日志,您和其他人可以参考它来获取项目每一步的详细信息,而顶部的模板化提问问题可以作为项目重要点的高级摘要,成为与您的项目相关的任何疑问或问题的第一个停靠港。因此,Data您创建的这个问题将记录与获取地面真实数据相关的所有内容,以及您做出的任何设计选择和数据的任何限制。

2024-08-29 09:30:15 829

原创 如何轻松为你的本地LLM项目设置简洁的用户界面

打开 WebUI 开源文档#5 运行 Open WebUI 在 Docker Desktop 中,如果你点击“端口”列中的 3000:8080 链接,它将在你的 Web 浏览器中打开以下 URL: http://localhost:3000/auth 您应该会看到登录页面。步骤 3/4: 3- 您可以根据需要创建一个 Docker 帐户,也可以跳过此部分,在我们的例子中,这不是必需的 4-最后,按照推荐的设置完成Docker Desktop的安装。就我而言,我只下载了 llama3 8B,所以我要使用它。

2024-08-29 09:15:02 813

原创 农村气候变化:为气候战士提供的 Python 项目

两个城市的气温数据显示出相同的总体趋势。不过,在执行此操作之前,我们需要德克萨斯州的轮廓,或者更具体地说,德克萨斯州的Shapefile。数据 在他的著作《未解决的问题:气候科学告诉我们什么、它没有告诉我们什么以及为什么它很重要》中,史蒂文·库宁利用美国政府的 2017 年气候科学特别报告表明,每日记录的低温测量值数量一直在下降,下降速度快于每日记录的高温测量值的上升速度。1980 年左右后,达拉斯的年平均低温总体上升,而奥尔巴尼农村的年平均低温趋于平稳,尽管在过去十年左右,它们与达拉斯的状况更加接近。

2024-08-28 22:49:32 723

原创 使用推测解码提高 LLM 推理速度

在理想情况下,如果辅助模型正确生成了大多数 token,主模型将能够快速验证 token,从而缩短端到端生成时间。如果根据主模型,其中一个 token 不正确,它会丢弃错误 token 后的整个序列。这个想法是,由于辅助模型很小,因此它会快速生成 token。理想情况下,辅助模型应该具有很少的参数,以便能够快速生成 token。原因是,在主模型验证生成的 token 之前,辅助模型必须生成 token。如果主模型继续拒绝助手生成的大部分标记,它(较大的模型)现在必须自动回归生成其余的序列。

2024-08-28 22:31:07 901

原创 人工智能如何将人机交互提升到新水平

但我的观点(即将在下面展开)是,当前的技术可以提供更多的东西,而且可能并没有那么遥远。此外,现代基于人工智能的语音识别系统可以自动检测语言,即使语言随时发生变化,也可以检测不同的说话者,分配时间戳,区分同音词,删除脏话,还可以检测某些单词,从而允许结合行话和当地表达方式:!需要明确的是,“声音”不仅是语音,而且原则上是任何其他类型的声音,这要归功于语音识别、语音合成和语言处理模型之间没有分离(正如之前可以做到的,我在上面的一个例子中展示了这一点),但它实际上是一个单一的“大脑”,可以原生处理一切。

2024-08-28 22:15:03 772

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除