人工智能
文章平均质量分 94
无水先生
擅长数学,能熟练应用泛函分析、统计学、随机过程、逼近论、微分几何、非欧几何(双曲、共形)等数学理论,有数学建模能力。从事图像处理二十年以上,从事人工智能行业10年以上;在船舶、通信、铁路、教育等行业开发软件产品。
展开
-
ML 系列: 第 24 节 — 离散概率分布(泊松分布)
泊松概率分布是一种离散概率分布,它表示在固定的时间或空间间隔内发生给定数量的事件的概率,前提是这些事件以已知的恒定平均速率发生,并且与自上次事件以来的时间无关。此分布对于对罕见事件进行建模特别有用。原创 2024-11-13 12:39:26 · 269 阅读 · 0 评论 -
ML 系列: 第 23 节 — 离散概率分布 (多项式分布)
在机器学习系列的第23节,我们探索了多项式分布,了解了它在多次试验中具有多种结果的场景中的应用。原创 2024-11-12 21:11:01 · 817 阅读 · 0 评论 -
ML 系列:第 21 节 — 离散概率分布(二项分布)
二项分布描述了在固定数量的独立伯努利试验中一定数量的成功的概率,其中每个试验只有两种可能的结果(通常标记为成功和失败)。原创 2024-11-09 16:11:35 · 784 阅读 · 0 评论 -
AI 聊天机器人的兴起:GPT-3 和 BERT 如何重新定义对话体验
在本文中,我们将探讨这些尖端语言模型如何彻底改变我们与 AI 驱动的聊天机器人的通信方式。我们将深入探讨 GPT-3 和 BERT 的主要特性和功能,并研究它们如何改变对话式 AI 的格局。原创 2024-10-28 21:20:54 · 1235 阅读 · 0 评论 -
机器学习中的嵌入是什么?
嵌入是真实世界对象的数字表示,机器学习(ML)和人工智能(AI)系统利用它来像人类一样理解复杂的知识领域。例如,计算算法了解 2 和 3 之间的差为 1,这表明与 2 和 100 相比,2 和 3 关系更为密切。但是,真实世界数据包含更复杂的关系。例如,鸟巢和狮穴是相似对,而昼夜是相反词。嵌入将真实世界的对象转换成复杂的数学表示,以捕捉真实世界数据之间的固有属性和关系。整个过程是自动化的,人工智能系统会在训练期间自我创建嵌入,并根据需要使用它们来完成新任务。原创 2024-10-27 17:07:20 · 1773 阅读 · 0 评论 -
在LLM中,如何选择嵌入模型?
我们大多数人都在使用 OpenAI 的 Ada 002 进行文本嵌入。原因是 OpenAl 构建了一个很好的嵌入模型,它比其他任何人都早得多就易于使用。然而,这是很久以前的事了。看一下 MTEB 排行榜就知道,Ada 远非嵌入文本的最佳选择。原创 2024-10-27 16:57:02 · 698 阅读 · 0 评论 -
什么是命名实体识别?
命名实体识别 (NER) 也称为实体分块或实体提取,是自然语言处理 (NLP) 的一个组件,用于识别文本正文中的预定义对象类别。这些类别可以包括但不限于个人姓名、组织、地点、时间表达、数量、医疗代码、货币价值和百分比等。从本质上讲,NER 是获取一串文本(即句子、段落或整个文档)并识别和分类引用每个类别的实体的过程。原创 2024-10-26 17:58:54 · 1186 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(17)从样本空间到概率规则概率
概率是支撑大部分统计分析的基本概念。从本质上讲,概率提供了一个框架,用于量化不确定性并对未来事件做出明智的预测。无论您是在掷骰子、预测天气还是评估金融市场的风险,概率都是帮助您驾驭不确定性的工具。本篇将讲授概率的原理和可操作性。原创 2024-10-24 09:39:45 · 1042 阅读 · 0 评论 -
2018 年 NLP 的 10 个令人兴奋的想法
这篇文章收集了有影响力的 10 个想法,我们将来可能会看到更多。 对于每个想法,我们将重点介绍 1-2 篇执行良好的论文。为了保持列表简洁,这里没有涵盖所有相关工作。该列表必然是主观的,涵盖主要与迁移学习和泛化相关的想法。其中大多数(除了一些例外)都不是趋势(但我怀疑有些可能会在 2019 年变得更加“时尚”)。原创 2024-10-16 20:37:24 · 1097 阅读 · 0 评论 -
决策树回归器,解释:包含代码示例的可视化
决策树不仅限于对数据进行分类 — 它们同样擅长预测数值!分类树经常成为人们关注的焦点,但决策树回归器(或回归树)是连续变量预测领域中功能强大且用途广泛的工具。原创 2024-10-15 20:55:07 · 592 阅读 · 0 评论 -
探索性数据分析 (EDA) 简介
探索性数据分析是研究或理解数据并提取洞察数据集以识别数据模式或主要特征的过程。EDA 通常分为两种方法,即图形分析和非图形分析。原创 2024-10-14 20:29:52 · 1578 阅读 · 0 评论 -
数据科学初学者都应该知道的 15 个基本统计概念
统计学,它已经存在了几个世纪,但在当今的数字时代仍然至关重要。为什么?因为基本的统计概念是数据分析的支柱,使我们能够理解每天生成的大量数据。这就像与数据对话,统计学可以帮助我们提出正确的问题并理解数据试图讲述的故事。原创 2024-10-10 10:28:19 · 1490 阅读 · 0 评论 -
40 个数据科学统计面试常见问题
作为人工智能的工程师,必须明白基本的数学应用,面试的时候难免也会遇到这些提问,那么提问者如何设计面试问题,遇到这些问题如何回答,本篇搜集了统计相关的四十个问题,供大家参考。原创 2024-10-10 10:10:56 · 1837 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(16) — 提高 KNN 效率-使用 KD 树和球树实现更快的算法
在机器学习系列的第 16 节,我们重点介绍了提高 K 最近邻 (KNN) 算法的效率,这是一种广泛用于分类和回归任务的方法。虽然 KNN 简单有效,但对于大型数据集来说,其计算成本可能会令人望而却步。为了解决这个问题,我们引入了两种高级数据结构:KD 树和球树,它们显着提高了 KNN 搜索的速度。原创 2024-10-09 09:10:25 · 1529 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结( 15) — KNN — 第 1 部分
K-最近邻 (KNN) 算法是一种流行的监督机器学习算法,用于分类和回归任务。它是非参数惰性学习算法的一个典型例子。KNN 被认为是一种惰性学习算法,因为它在训练阶段不对底层数据分布做出任何假设,也不从训练数据中学习特定模型。相反,它是一种“惰性”或“延迟”学习,它只是记住训练数据集。原创 2024-10-09 08:52:27 · 1400 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(14) — 逻辑回归(第 3 部分 — 实施)
在这篇博文中,我们将探讨如何使用 Python 和 scikit-learn 库 (sklearn) 实现逻辑回归。原创 2024-10-08 20:38:01 · 960 阅读 · 0 评论 -
ML 系列:【13 】— Logistic 回归(第 2 部分)
在这篇文章中,我们将深入研究 squashing 方法,这是有符号距离方法(第 12节)的一种很有前途的替代方案。squashing 方法通过提供增强的对异常值的弹性来解决有符号距离方法的缺点,从而提高 Logistic 回归模型的整体性能和准确性。原创 2024-10-08 19:40:16 · 997 阅读 · 0 评论 -
统计学习理论之VC维究竟是什么
学习机器学习不可避免的会接触到VC维,它在机器学习领域是一个很基础但很重要的概念,它给机器学习提供了坚实的理论基础。但直到在我写这篇博客之前,我对VC的理解还只停留在它能刻画假设空间的复杂度这样浅显的层次。本文就来理一理VC维(Vapnik–Chervonenkis dimension)的来龙去脉,搞清楚其本质。原创 2024-10-03 15:40:47 · 1109 阅读 · 0 评论 -
ML 系列: (10)— ML 中的不同类型的学习
我们之前将机器学习方法分为三类:监督学习、无监督学习和强化学习。机器学习方法可以分为不同的类型,我们将在下面讨论最重要的类型。原创 2024-10-03 08:59:49 · 1318 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(08)—欠拟合、过拟合,正确拟合
在有监督学习过程中,对于指定数据集进行训练,训练结果存在欠拟合、过拟合的情况,这两个情况都对模型的泛化是不利的,本篇对监督学习的训练的泛化问题进行解释。原创 2024-09-23 20:31:41 · 1219 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(07)数据预处理—解决缺失值、异常值和错误数据
在AI数据挖掘中,对原始数据的预处理是必须的技术手段,本篇将对数据预处理的一系列注意事项进行展示。原创 2024-09-22 09:42:05 · 1578 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(06)— 提升数据质量
在AI数据挖掘中,对原始数据的预处理是必须的技术手段,本篇将对数据预处理的一系列注意事项进行展示。原创 2024-09-22 09:04:22 · 788 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(05)非线性回归
非线性回归是指因变量和自变量之间存在非线性关系的模型。该模型比线性模型更准确、更灵活,可以获取两个或多个变量之间复杂关系的各种曲线。原创 2024-09-21 11:14:45 · 1440 阅读 · 1 评论 -
ML 系列:机器学习和深度学习的深层次总结(04)多元线性回归 (MLR)
线性回归从一维推广到多维,这与单变量线性回归有很多不同,情况更加复杂,而在梯度优化也需要改成向量梯度,同时,数据预处理也成了必要步骤。原创 2024-09-21 09:46:26 · 1365 阅读 · 0 评论 -
岭回归:带示例的分步介绍
岭回归是一种在独立变量高度相关的情况下估计多元回归模型系数的方法。[1]它已用于计量经济学、化学和工程学等许多领域。[2]也称为Tikhonov 正则化,以Andrey Tikhonov命名,是一种解决不适定问题的正则化方法。[a]它对于缓解线性回归中的多重共线性问题特别有用,这种问题通常发生在具有大量参数的模型中。[3]通常,该方法在参数估计问题中提供了更高的效率,以换取可容忍的偏差量原创 2024-09-15 19:26:41 · 1112 阅读 · 0 评论 -
空间不确定性的表示与估计
本文介绍了一种估算温度的通用方法之间的标称关系和预期误差(协方差)表示对象相对位置的坐标框。这些帧只能通过一个简单的例子间接地知道一系列空间关系,每个关系都有其相关的错误,由多种原因引起,包括定位错误,测量误差或零件尺寸公差。原创 2024-09-11 21:24:16 · 1644 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(02)线性回归
欢迎学习机器学习系列。这门综合课程目前包括40个部分,指导您了解机器学习、统计和数据分析的基本概念和技术。以下是最基本机器学习模型,线性回归模型。原创 2024-09-10 10:52:48 · 1408 阅读 · 0 评论 -
ML 系列:机器学习和深度学习的深层次总结(01)
欢迎学习机器学习系列。这门综合课程目前包括40个部分,指导您了解机器学习、统计和数据分析的基本概念和技术。以下是到目前为止涵盖的关键主题的简要概述原创 2024-09-09 12:32:15 · 1621 阅读 · 0 评论 -
学习算法的类型
嘿,好奇的伙伴们!今天,让我们踏上一段激动人心的机器学习算法领域之旅。🚀 如果你和我一样,你可能会发现机器学习的世界非常迷人,有时甚至有点让人不知所措。但不要害怕,因为我在这里以有趣、友好且易于理解的方式指导您了解一些最常见的 ML 算法类型!原创 2024-09-08 11:29:06 · 976 阅读 · 0 评论 -
微积分直觉:隐含微分
取 S 的导数意味着考虑这两个变量的微小变化,一些微小的变化 dy 到 y,一些微小的变化 dx 到 x(不一定让你留在圆圈里,它可以在任何方向)。方程的左侧是时间 (y(t)² + x(t)²) 的函数,它恰好等于一个常数,这意味着该值不会随着时间的流逝而改变,但仍被写为依赖于时间的表达式。方程的左侧是时间 (y(t)² + x(t)²) 的函数,它恰好等于一个常数,这意味着该值不会随着时间的流逝而改变,但仍被写为依赖于时间的表达式。x(t)² 的导数是 x(t) 的 2 乘以 x 的导数(链式法则)。原创 2024-09-07 09:36:23 · 963 阅读 · 0 评论 -
Bagging: 数量,而不是质量。
机器学习中的集成方法是指组合多个模型以提高预测性能的技术。集成方法背后的基本思想是聚合多个基础模型(通常称为弱学习器)的预测,以生成通常比任何单个模型更准确、更稳健的最终预测。一般而言,我们通常遵循质量胜于数量的原则。然而,在这种情况下,事实证明相反的原理同样有效。原创 2024-09-06 11:20:47 · 1127 阅读 · 0 评论 -
什么是机器学习中的 Bagging?带有示例的指南
集成方法是机器学习中强大的技术,它可以结合多种模型来提高整体预测准确性和模型稳定性。Bootstrap Aggregating(俗称 Bagging)是一种流行且广泛实施的集成方法。在本教程中,我们将深入研究 bagging、其工作原理以及其优势所在。我们将它与另一种集成方法 (Boosting) 进行比较,并查看 Python 中的 bagging 示例。最后,您将对 bagging 有扎实的了解,包括最佳实践。原创 2024-09-05 09:24:24 · 1506 阅读 · 0 评论 -
缺失值插补解释:六种插补方法?
让我们谈谈每个数据科学家、分析师或好奇的数字计算者迟早必须处理的事情:缺失值。现在,我知道你在想什么 — “哦,太好了,又一个缺失值指南。但请听我说。我将向您展示如何使用不一种、两种而是六种不同的插补方法来解决这个问题,所有这些都在单个数据集上(还有有用的视觉效果!到最后,您将明白为什么领域知识物有所值(即使是我们的 AI 朋友也可能难以复制)原创 2024-09-04 08:06:13 · 3752 阅读 · 0 评论 -
机器学习如何用于音频分析?
近十年来,机器学习越来越受欢迎。事实上,它被用于医疗保健、农业和制造业等众多行业。随着技术和计算能力的进步,机器学习有很多潜在的应用正在被创造出来。由于数据以多种格式大量可用,因此现在是使用机器学习和数据科学从数据中提取各种见解并使用它们进行预测的合适时机。机器学习最有趣的应用之一是音频分析和分别了解不同音频格式的质量。因此,使用各种机器学习和深度学习算法可确保使用音频数据创建和理解预测。原创 2024-09-03 06:56:20 · 1397 阅读 · 0 评论
分享