自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(242)
  • 资源 (16)
  • 收藏
  • 关注

原创 【报告】从 YCombinator 支持的 400 家(2023年和2024年) AI 初创公司看AI行业

只有 0.5% 的公司专注于边缘 AI,当前的 AI 发展与对实时、设备上 AI 处理日益增长的需求之间存在明显差距。他们的选择过程不断发现那些后来重塑整个行业的公司,这使得他们的投资组合成为新兴趋势和技术的宝贵指标。:85.1% 的公司正在开发人工智能应用程序,而 14.9% 的公司致力于基础设施建设,这表明它们明显注重实用的、针对特定行业的人工智能解决方案。对于那些不知道的人来说,81.1% 的 YC 支持的 AI 初创公司专注于企业解决方案,表明投资者对面向企业的 AI 应用更有信心。

2024-08-17 10:41:48 282

原创 ML落地的重心从算力和算法转向数据和系统监控

也许这就是通用人工时代的不同范式,其更大的意义是赋能整个社会新的思考方式,赋能政府新的治理方式,赋能企业从生产,制造,到营销,服务的全生命周期的能力提升;关于数据部分怎么强调也不分,在实践中数据工程缺乏的是合理的工程组织和工程原则,真正的实现数据可重复生产,可迭代,打造自己的企业自己的数据流水线。随着业务的发展,数据量会变,数据的分布也可能会变,那么如何保证模型能快速适应业务的要求,对模型和数据本身的监控就必不可少。机器学习大部分的工作在数据,没有足量的,高质量的数据,再好的模型架构肯能也要望洋兴叹。

2024-08-07 07:38:58 610

原创 机器学习:识别AI,GraphRAG,LoRA,线性变换,特征

LoRA 是一种加速 LLM 微调同时消耗更少内存的技术。这不涉及对整个基础模型进行微调,因为这可能需要耗费大量的时间和金钱。相反,它会向模型中添加少量可训练参数,同时保持原始模型参数不变。为什么选择 LoRA?尽管我们使用 LoRA 为模型添加了更多层,但它实际上有助于节省内存。这是因为与大模型相比,较小的层(A 和 B)需要学习的参数较少,而可训练参数较少意味着需要存储的优化器变量较少。因此,尽管整体模型看起来更大,但就内存使用而言实际上更高效。什么是等级?

2024-08-06 17:25:52 684

原创 推荐:数据工程的原则和推荐的项目结构

例如数据始终位于 data/ 中,原始数据位于 data/raw/,用于分析的最终清理版本位于 data/processed/ 中。这种合理的结构有助于其他人理解、重现和扩展您的分析,并建立一种信任感,。要想做好数据工程,就需要遵守一定的规则,并建立良好的项目结构,这样才能确保我们的数据项目事半功倍。在实践中,需要根据实际情况,不断优化数据项目的流程和结构,真正实现数据的端到端,可重复的生成过程,从而满足数据分析,机器学习的需要。规则 9:项目运行默认是详细的,并产生有形的工件。

2024-08-06 08:23:10 990

原创 机器学习入门-新手常见问题记录

在选择具体的算法时,建议从训练数据的大小、特征的数量、是着重考量模型的性能还是考量模型的可解释性、是否要求模型有很快的训练速度,以及数据的线性程度这几个方面,来选择最适宜的算法。0,机器学习项目的5步: 定义问题(营销/运营/维护等)—>收集数据(A/B测试)和预处理/–>(选择算法和确定模型—>训练模型—>评估并优化模型),很多时候,后面3步需要不断的反复循环的,甚至有时候后面四步 包含数据的处理特别是涉及特征工程话,也需要反复。2. 普通的 CNN,和VGG19使用的Y的特征数量不同。

2024-07-31 07:47:15 918

原创 探索:如何利用和训练overfitting的模型

使用过拟合模型进行调试和理解模型行为的过程包括识别过拟合问题、分析模型表现、以及通过可视化和特征重要性分析来理解模型的决策机制。这些方法可以帮助我们改进模型、提高模型的泛化能力,并深入了解模型的预测逻辑。合成基准测试和竞赛可以帮助研究人员和工程师更好地理解和解决过拟合问题,通过设计合成数据集和评估模型性能,推动机器学习模型的改进。合成基准测试可以用来建立标准化的评估方法,而竞赛则激励创新并发现最佳解决方案。通过具体的示例和实验,教学中可以利用过拟合模型来帮助学生理解复杂的机器学习概念。

2024-07-29 17:05:19 1024

原创 Ruff :是一个用Rust编写的极快的 Python linter 和代码格式化程序

您可能不会以这种方式使用 Ruff,并且您有一个编辑器,那么让我们看看如何设置它!通过该扩展,您可以使用命令来格式化、检查和组织笔记本中的导入内容。如您所见,已修复 33 个,剩余 383 个。现在,就像“修复所有可自动修复的问题”一样简单。如果你正在使用笔记本的 CLI,则必须转到或。但更好的是,您可以在保存时执行此操作。要对代码运行 linter,我们使用。如果你想在单个文件上运行它,请这样做。要在保存时启用它,请添加以下内容。为了修复它们,我们使用标志。,可以按照以下方法添加。为了格式化,我们使用。

2024-08-29 07:06:04 364

原创 神经网络微调技术全解(05)-- Learnable Prompts vs Prefix Tuning

是一种更为通用的概念,允许在输入文本前后插入可训练提示,并且在模型输入层进行优化。它的应用范围较广,但影响主要局限于输入表示。

2024-08-28 06:57:35 815

原创 神经网络微调技术全解(04)-- Prompt Tuning-可训练提示(Learnable Prompts)

可训练提示”(Learnable Prompts)是Prompt Tuning中的一个关键概念。与手动设计的固定文本提示不同,可训练提示指的是一种自动化的、基于学习的提示优化方法。这种提示不再是简单的静态文本,而是通过训练模型来学习的一组向量表示,用以引导模型在特定任务上的输出。可训练提示是Prompt Tuning中的一种关键技术,通过将提示作为可训练的向量而非静态文本,来引导预训练模型更好地完成任务。它的自动化学习过程减少了对人工设计提示的依赖,并且在参数效率和适应性方面表现优异。

2024-08-28 06:56:25 503

翻译 【行业02】-数据中心生态专题

当我们将 Nvidia 在电话会议上说的话输入到我们的电子表格魔法中时,我们估计计算和网络业务中的计算部分销售额为 119.4 亿美元,比去年同期增长了 4.24 倍,网络部分销售额为 25.8 亿美元,同比增长 2.55 倍。黄仁勋表示,InfiniBand 网络销售额在本季度增长了 5 倍,我们认为这一数字将达到 21.4 亿美元,占所有网络业务的 83.1%。这看起来可能会成为有史以来最伟大的收购,因为仅仅 3.5 年后,Nvidia 的网络业务规模就已经是 Mellanox 的数倍。

2024-08-27 12:09:09 53

原创 神经网络微调技术全解(03)-Prompt Tuning全面解析

Prompt Tuning是一种轻量、高效的微调方法,主要通过优化输入提示文本来引导预训练模型完成特定任务。它在计算资源有限的情况下,特别适合少样本学习和多任务处理场景。然而,提示的设计和优化过程可能存在一定挑战,并且在处理复杂任务时可能需要结合其他微调技术。

2024-08-27 06:49:17 1308

翻译 【行业01】-数据平台生态和行业生命周期

如今,数据可以以多种格式进行测量和获取。从本质上讲,数据以 1 和 0 的形式存储。在半导体层面,这就是内存的工作方式。每个晶体管都表示为 1 或 0。在更高级别,数据可以存储为整数、浮点数、字符、字符串、数组或日期/时间。还有其他一些格式,但这些是主要的数据类型。从本质上讲,所有。

2024-08-26 21:11:09 39

原创 神经网络微调技术全解(02)-针对每种微调技术的具体实施示例(含代码)

这些示例展示了如何实施各种微调技术,每种技术都针对特定问题或任务进行优化,并且都包含一些代码片段帮助理解实际操作。请注意,实际应用中通常需要更复杂的训练循环、数据加载和参数调整。

2024-08-26 07:52:29 293

原创 回归分析系列22— 稳健回归

例如,稳健回归方法往往需要更多的计算资源,尤其是在数据量大且异常值多的情况下。此外,在异常值较少时,稳健回归的表现可能不如传统回归模型。通过稳健回归方法,我们可以有效减小这些异常值的影响,从而获得更准确的模型。稳健回归是一种在数据中存在异常值或噪声时,依然能够提供合理估计的回归方法。传统的线性回归对异常值非常敏感,因为它最小化的是平方误差。稳健回归方法通过对异常值降低权重,或者对损失函数进行修正,以减少这些点对模型的影响。通过迭代选择部分数据进行模型拟合,并排除异常值的影响,最终获得稳健的回归系数。

2024-08-26 07:51:01 304

原创 回归分析系列21— 非线性回归模型进阶

非线性回归模型是一类用于处理非线性关系的数据建模方法。在很多实际应用中,变量之间的关系并非线性的,此时线性回归模型可能不适用。非线性回归模型可以通过引入非线性函数或更复杂的模型来更好地拟合数据。例如,在建模消费者行为或市场需求时,变量之间的关系通常是非线性的。通过选择适当的非线性函数,可以更准确地描述这些复杂关系。非线性回归的一个关键步骤是选择适当的非线性函数。我们可以通过这些函数来捕捉变量之间的非线性关系。核方法是一种将输入数据映射到高维空间的技术,从而使得在高维空间中的非线性问题在低维空间中变得线性。

2024-08-26 07:50:07 226

原创 神经网络微调技术全解(01)-不同的微调方法如PEFT、SFT、LoRa、QLoRa等,旨在解决不同的问题和挑战

PEFT:关注减少全面微调的计算和存储需求,通过部分参数的微调实现高效适应性。SFT:专注于将无监督预训练模型转换为能够执行特定监督任务的模型。LoRa:通过低秩矩阵分解减少微调参数的数量,从而降低计算和存储成本。QLoRa:在LoRa的基础上引入量化,进一步减少存储需求,适用于资源有限的场景。Adapter: 用于多任务学习,通过添加可训练模块进行适应。: 通过优化输入提示来引导大语言模型的任务表现。: 通过训练前缀向量来影响模型输出,适合大模型。BitFit: 仅微调偏置项,极大减少参数量。

2024-08-25 08:53:00 747

原创 回归分析系列14.2— 正则化回归

在选择正则化参数时,通常使用交叉验证来找到最佳的正则化强度。正则化程度越高,模型的系数会越接近零,这使得模型更简单、更容易解释,但可能会牺牲一些精度。正则化回归是一种在回归模型中引入约束的技术,目的是防止模型过拟合并提高其泛化能力。最常见的正则化方法有岭回归(L2正则化)和套索回归(L1正则化)。网格搜索是一种用于选择模型最佳超参数的方法,常用于正则化回归中,如选择正则化强度参数(alpha)。弹性网回归结合了岭回归和套索回归的特性,其目标函数是L1和L2正则化的加权和。在Python中,可以使用。

2024-08-25 08:49:53 352

原创 回归分析系列20— 模型选择与模型验证

通过合理的模型选择和验证过程,我们可以找到性能最佳的模型,并确保它在实际应用中的有效性。关键是平衡模型的复杂度与预测性能,并通过交叉验证和正则化等手段控制模型的泛化能力。在统计建模中,模型选择与验证是关键步骤。这一过程旨在找到最适合数据的模型,并通过交叉验证或其他方法验证其性能。模型选择通常包括选择特征、模型类型以及调整超参数,而模型验证则通过测试数据评估模型的泛化能力。在模型选择过程中,正则化是一种控制模型复杂度的有效方法。通过交叉验证,我们可以更好地评估模型的泛化性能,并避免过拟合。

2024-08-25 08:46:51 175

原创 【数据中心小知识】电力需求如此重要,以至于数据中心通常以耗电量而非建筑面积来衡量

它是在数据中心训练的,在专门设计的建筑物中,有数万台计算机及其所需的支持基础设施。所谓的“超大规模企业”,即拥有大量计算需求的科技公司,如 Meta、亚马逊和谷歌,估计它们计划或正在开发的数据中心足以将其现有容量翻一番。现代数据中心,即专门建造的容纳数万台计算机的大型建筑,在很大程度上是后互联网时代的产物。现代数据中心所需的电力与一座小城市相当,而多个数据中心的园区使用的电力与一座大型核反应堆相当。人工智能的兴起将加速这一趋势,需要更多数据中心,而这些数据中心的耗电量也越来越大。

2024-08-24 14:54:37 501

原创 回归分析系列19— 多项式回归进阶

在实际应用中,我们通常需要结合交叉验证、正则化等手段,来选择合适的多项式次数以及模型参数。然而,随着多项式次数的增加,模型的复杂度也会迅速上升,导致过拟合的风险。此外,高次多项式的回归系数往往非常大,对输入数据的微小变化也会非常敏感。这个例子展示了如何使用多项式回归来预测房价,以及如何通过提高多项式的次数来捕捉更加复杂的模式。在多项式回归中,我们首先需要生成多项式特征,即将原始特征升至不同次幂并组合。通过在多项式回归中引入正则化,我们可以有效控制模型的复杂度,从而降低过拟合的风险。

2024-08-24 07:50:36 274

原创 回归分析系列18— 平衡偏差与方差

在模型构建中,我们通常面临偏差(bias)与方差(variance)之间的权衡。偏差是指模型的预测与真实值之间的系统性误差,而方差则是指模型在不同训练集上的波动性。通过引入正则化项,可以有效控制模型的方差。例如,在线性回归中,我们可以使用岭回归(L2 正则化)或Lasso回归(L1 正则化)来平衡偏差和方差。在这段代码中,我们使用bootstrap方法估计了模型的偏差平方和方差,从而更好地理解模型的误差来源。在这个示例中,我们使用了岭回归和Lasso回归来演示如何通过正则化来减少方差,同时保持适当的偏差。

2024-08-24 07:49:25 258

原创 回归分析系列17— 部分可识别模型

部分可识别模型在经济学、社会科学等领域有广泛应用。在这种情况下,可以通过部分可识别模型来估计某些关键参数,尽管这些估计值通常具有较大的不确定性。在现实世界中,许多模型并不是完全可识别的。部分可识别模型允许在这种情况下对参数进行估计,但往往伴随着较大的不确定性。在部分可识别模型的背景下,评价和选择模型的方法也需要相应调整。传统的指标如AIC或BIC可能不适用,取而代之的是基于后验分布的不确定性分析。在Python中,我们可以通过贝叶斯方法来应对部分可识别性。21.2 部分可识别模型的结构。

2024-08-23 07:58:24 355

原创 回归分析系列16— 多层次模型

多层次模型(也称为层次线性模型或混合效应模型)在处理具有嵌套结构的数据时非常有用。例如,在教育数据中,学生嵌套在班级中,班级嵌套在学校中。多层次模型的一个经典应用是在教育数据中建模学生成绩。学生嵌套在班级中,班级嵌套在学校中。通过多层次模型,我们可以同时估计班级和学校的效应,并分析不同层次的变异来源。在多层次模型中,系数可以分为固定效应和随机效应。固定效应解释的是群体水平的平均效应,而随机效应解释的是组间差异。当数据具有更复杂的嵌套结构时,多层次模型可以进一步扩展。对应的是固定效应的系数,而。

2024-08-23 07:57:58 321

原创 【Pyhthon读取 PDF文件表格 ,转为 CSV/TSV/JSON文件】

很简单,对吧?实际上,你可以向 Tabula 传递很多不同的命令来加快速度,甚至可以提供特定的 XY 坐标进行提取。

2024-08-22 07:51:49 1075

原创 回归分析系列15— 贝叶斯回归进阶

在高维数据中,贝叶斯回归可以通过选择适当的先验来控制模型复杂度,避免过拟合。贝叶斯回归是通过贝叶斯推断来估计回归模型参数的方法。与经典的最小二乘法不同,贝叶斯回归在估计参数时结合了先验信息。通过贝叶斯方法,可以得到参数的后验分布,而不仅仅是一个点估计。贝叶斯回归的结果依赖于先验分布的选择。正态分布通常用于岭回归的贝叶斯版本,而拉普拉斯分布则适用于套索回归的贝叶斯版本。然后根据观测数据更新先验分布,得到回归系数的后验分布。通过后验分布,可以直接得到参数的置信区间,这对于模型解释非常有用。类来实现贝叶斯回归。

2024-08-22 07:48:02 553

原创 回归分析系列14— 多项式回归

多项式回归适用于许多实际问题,特别是当数据中存在明显的非线性关系时。例如,在经济学中,多项式回归可以用于预测非线性趋势的经济指标;在医学研究中,它可以用于建模药物剂量与疗效之间的复杂关系。在多项式回归中,选择合适的多项式阶数非常重要。通过交叉验证,可以帮助我们选择最合适的阶数。其中,p 是多项式的阶数,β0,β1,…多项式回归是线性回归的一种扩展,它允许回归模型包括输入变量的高次项。在处理高维数据时,多项式回归容易产生过拟合问题。为了缓解这一问题,可以结合正则化技术,如岭回归或套索回归。

2024-08-22 07:46:57 381

原创 【从Qwen2,Apple Intelligence Foundation,Gemma 2,Llama 3.1看大模型的性能提升之路】

在查看Qwen 2 技术报告中讨论的预训练和后训练方法之前,让我们简单总结一下一些核心规格。Qwen 2 模型有 5 种类型。有 4 种常规(密集)LLM,大小分别为 5 亿、15 亿、70 亿和 720 亿个参数。此外,还有一个 Mixture-of-Experts 模型,具有 570 亿个参数,其中同时激活了 140 亿个参数。(由于架构细节不是这次的重点,我不会过多地介绍 Mixture-of-Experts 模型;

2024-08-21 19:30:54 1054

原创 【机器学习python常用的20个包】

如果您想制作具有基本界面的应用程序(例如带有按钮和文本框的窗口),请使用 Tkinter。Dash 是一款出色的 Python 工具,可用于制作 Web 应用。由于它是非交互式的,因此即使用户未登录,它也可以在后台运行。Pendulum 是一款 Python 工具,可让您更轻松地处理日期和时间。您可以使用它来代替内置的 Python 日期和时间功能。对于需要将日期和时间放入 Python 代码中的程序员来说,它非常有用。但是,Pendulum 包可以更轻松地使用日期和时间进行更复杂的编码。

2024-08-21 08:46:42 647

原创 回归分析系列13— 层次模型

层次模型,也称为多层模型或混合效应模型,是用于分析具有分层或嵌套结构的数据的统计方法。在层次模型中,数据可以按照不同的层次进行分组,每个层次可能会有不同的影响因子。层次模型允许我们在不同的层次上估计参数,从而更好地捕捉数据的复杂性。

2024-08-21 07:58:22 406

原创 回归分析系列12—具有交互项的回归模型

在回归模型中,除了考虑单个预测变量对响应变量的影响外,还可以考虑预测变量之间的交互作用。这些交互作用项能够捕捉到一个预测变量对另一个预测变量影响的调节作用,从而提供对数据更深刻的理解。假设我们有两个预测变量 X1和 X2​,如果我们怀疑它们之间存在交互作用,那么可以在回归模型中加入一个交互项 X1*X2​。这个交互项表示 X1​ 和 X2的乘积,用来捕捉它们的共同影响。在Python中,可以使用的类来生成交互项。# 生成模拟数据# 拆分训练集和测试集# 生成包含交互项的数据# 构建线性回归模型。

2024-08-21 07:57:26 704

原创 【线性相关 vs 双变量回归】数据点在斜率周围的聚集程度与斜率本身并不是一回事。

相对于上图,它们在拟合线周围分散得很开,这表明从 X 的一个值到 X 的较高值对应 Y 的较低值的情况相对较多*,*反之亦然。你会有点疑惑*(因为你对气温的下降不理解)*,于是决定去一座更高的山,发现那里的气温甚至比前一座山上的还要低。1.深入相关性这个概念,我们可以说,如果第一个变量的每一个值,都遵循一定的规律性对应于第二个变量的一个值,那么两个变量是相关的;因此,如果两个变量高度相关,路径将是线性的*(一条线)*,因为相关性描述了变量之间的线性关系。从数学上讲,回归的目的是找到最适合数据的曲线。

2024-08-20 19:21:39 908

原创 LLM小模型系列研究(01)

团队构建了一套由现有和新建指令组成的 2.58M 条指令集。这些指令涵盖多个主题,然后使用 GPT-3.5-turbo 生成响应。根据 Lamini 的论文,LaMini-Flan-T5-248M 在下游 NLP 任务上的表现甚至优于 LLaMa-7B。当模型尺寸较大时,LaMini-Flan-T5 与 LaMini-GPT 相当。。

2024-08-20 11:51:19 971

原创 回归分析系列11—时间序列数据中的回归

时间序列分析的一个关键特性是考虑数据点之间的时间依赖关系。常见的时间序列建模方法包括自回归(AR)、滑动平均(MA)和自回归积分滑动平均(ARIMA)模型。在回归分析中,时间序列模型可以用于预测未来的值。时间序列模型在处理时间相关的数据时非常有效,可以捕捉数据中的时间依赖性。然而,这些模型的复杂性较高,需要对数据的时间特性有较深的理解。ARIMA模型对于具有复杂时间结构的数据可能非常有用,但模型的选择和参数调整是一个挑战。ARIMA模型结合了自回归(AR)、差分(I)和移动平均(MA)三种特性。

2024-08-20 07:31:57 802

原创 回归分析系列10—交叉验证与模型选择

不同的模型可能会对同一数据集产生不同的预测效果,因此需要通过某些方法来评估和选择模型。交叉验证是一种常用的技术,用于评估模型的表现并避免过拟合。最常见的形式是K折交叉验证,其中数据被分成K个子集,每次使用一个子集作为测试集,其余的作为训练集。除了选择模型类型外,调参也是模型选择的一部分。在模型选择过程中,使用适当的评估指标来衡量模型的表现非常重要。模型选择的过程通常涉及在多个候选模型中选择一个表现最优的模型。假设我们在多项式回归模型之间进行选择,不同的多项式阶数代表不同的候选模型。函数来执行K折交叉验证。

2024-08-20 07:31:04 452

原创 大模型幻觉(Hallucination)控制方法Guardrails

Guardrails是一套规则和检查,旨在确保 LLM 的输出准确、适当且符合用户期望,控制幻觉。这里介绍两种Guardrails的应用。

2024-08-19 08:07:48 432

原创 回归分析系列9—高维数据中的回归

LASSO(Least Absolute Shrinkage and Selection Operator)回归通过在损失函数中加入L1正则化项来实现特征选择。正则化回归(如岭回归和LASSO)在处理高维数据时具有明显优势,能够有效缓解多重共线性和过拟合的问题。在高维数据中,回归分析可能会面临多重共线性和过拟合的问题。为了解决这些问题,常用的技术包括岭回归、LASSO回归以及降维方法如主成分分析(PCA)。岭回归是一种对线性回归的扩展,通过在损失函数中加入正则化项,减少模型对共线性和过拟合的敏感性。

2024-08-19 07:52:03 563

原创 回归分析系列8—逻辑回归

然而,逻辑回归对数据中的异常值和相关性敏感,并且在高维数据或多分类问题中,其性能可能不如其他更复杂的模型。逻辑回归是一种广泛应用的分类方法,主要用于二分类问题。逻辑回归模型中的系数 β\betaβ 代表了每个特征对目标变量的影响。这些系数的解释是:在控制其他变量不变的情况下,每增加一个单位的某个特征,其对目标变量的对数几率的影响为该特征的系数。对于多分类问题(例如,类别有三个或更多),逻辑回归模型可以扩展为多分类逻辑回归。在二分类问题中,逻辑回归模型预测的是目标变量为某一类别的概率。

2024-08-19 07:51:17 382

原创 回归分析系列7-非线性回归

核回归是一种更为灵活的非线性回归方法。局部回归(LOESS/LOWESS)是一种非参数回归方法,它在局部区域内拟合一个简单模型,从而在整体上获得复杂的非线性关系。局部回归对数据的局部性有很好的适应性,但在处理大规模数据时,计算代价较高。多项式回归是最常用的非线性回归方法之一,它通过将原始特征升维(即增加特征的幂次项)来捕捉非线性关系。非线性回归模型能够捕捉数据中的非线性关系,通过对特征进行非线性变换或者直接使用非线性函数来拟合模型。非线性回归可以灵活地捕捉数据中的复杂模式,但也存在过拟合的风险。

2024-08-18 07:49:37 225

原创 机器学习入门必须理解的概念-终于掰扯清楚了一些

定义:过拟合发生在模型在训练数据上表现得非常好(如预测准确率很高或误差很小),但在未见过的测试数据或验证数据上表现较差。这意味着模型学到了训练数据中的细节和噪声,而不是数据的普遍规律。表现:过拟合的模型通常会对训练数据的特异性模式做出过度的响应,从而在面对新数据时不能很好地泛化。这导致模型在新数据上的误差大幅增加。统计学习:重视模型的解释性和参数合理性,强调模型的统计基础和理论性。适用于需要明确因果关系和统计推断的场景。机器学习:重视模型的泛化能力和预测性能,强调模型在处理新数据时的表现。

2024-08-18 07:46:25 945

原创 回归分析系列6-多层次回归

多层次回归模型能够处理数据中的层次结构,并且允许在同一模型中估计多个层次的效应。然而,多层次模型的估计和解释通常比较复杂,尤其是在数据层次较多或效应较复杂的情况下。它们允许在回归模型中同时考虑多个层次(如学校中的学生、不同时间点的个体等)的影响,并且能处理组内和组间的变异性。我们的目标是建立一个模型,预测学生的成绩,同时考虑学校的影响。在上述例子中,每个学校的影响可以看作是随机效应,而学生的成绩预测则由固定效应和这些随机效应共同决定。假设我们有一个简单的模型,其中包括学生的个体特征和学校的特定影响。

2024-08-18 07:44:38 445

​ 这份报告对 YC 2023 年和 2024 年队列中的 417 家人工智能公司进行了广泛的分析

​ 这份报告对 YC 2023 年和 2024 年队列中的 417 家人工智能公司进行了广泛的分析。对于那些不知道的人来说,YCombinator是一个领先的初创企业加速器,提供种子资金、指导和资源,以帮助早期初创企业取得成功,YCombinator (YC)在发现和培育成功初创企业方面的业绩在科技行业中无与伦比。他们的选择过程不断发现那些后来重塑整个行业的公司,这使得他们的投资组合成为新兴趋势和技术的宝贵指标 ​

2024-08-17

Evidently AI - 内部机器学习平台的终极清单

Evidently AI - 内部机器学习平台的终极清单

2024-08-14

python numpy速成手册

python

2024-08-14

世界各地很多服务提供商采纳了TM论坛的TOM2.1业务架构模式,TOM已经成为服务提供商运营管理的工业标准。但是。。。。

前,世界各地很多服务提供商采纳了TM论坛的TOM2.1业务架构模式,TOM已经成为服务提供商运营管理的工业标准。但是,TOM存在两点不足之处:TOM只包含了运营管理过程,而没有覆盖整个企业的业务过程;TOM没有充分考虑到电子商务和Internet对业务环境的影响以及运营商业务关系的越来越复杂性。针对于此,ETOM以TOM为核心,对这两方面进行了扩展。

2022-02-11

阿里云架构师成长之路-云上常见架构设计及优化.txt

迁移,网络,数据库,云存储,云上容灾,弹性伸缩,基于容器和微服务,安全架构,混合云,企业专有云架构设计及解决方案

2021-10-15

华为数字化运营.pdf

华为的数字化运营实践。数字化转型的基础,是业务的全面数字化。大数据技术只是一个加速的工具,做好企业的基本运营是根基

2020-09-15

数据中台之数据架构参考

数据中台作为企业数字化转型的抓手。从企业架构出发,数据架构可作为数据中台建设的理论参考。从而深入理解数据中台与企业业务价值的关联。

2020-09-15

数据中台-分享.pdf

中台和数据中台的理解,数据中台构建的实践总结,数据资产体系构建是核心。从数据资源到资产到服务,加速业务数据化,数据业务化的价值流转。

2020-09-15

智能电厂技术规范.pdf

本规范适用于智能火电厂的规划、设计、建设、技改、运营等不同阶段的相关工作。 智能水电厂、智能风电场、智能光伏电站等其他类型发电企业可参照执行。

2020-08-23

智能电厂技术发展纲要.pdf

电厂数字化是智能电厂的基础,电厂智能化是电厂数字化技术的延 伸与发展。智能电厂建设,需要进行顶层设计、全面规划、统一技术, 梳理理念、明确路径、建立标准。智能电厂建设是电厂智能化的一个过 程,应因地制宜、顺序渐进。

2020-08-23

北斗火力发电厂SIS产品介绍.pdf

电厂厂级信息系统包括厂级监控信息系统(SIS)、厂级管理信息系统(MIS),目前各电厂的厂级监控信息系统(SIS)、厂 级管理信息系统(MIS)多为独立设置。

2020-08-23

Practical Guide to Agile Strategy Execution.pdf

数字化转型战略的敏捷执行,通过设计、架构、确定优先级,首先商业成功

2020-08-23

RDS数据库入门一本通.pdf

超全RDS原理和常见问题精解手把手教你搞定RDS场景实战;RDS数据库 云运维师从入门到精通~~~~~~~~~

2020-08-22

小程序 大世界.pdf

2年接入⑥大土流应用平台从开发技巧到避坑指南全掌握+2年接入⑥大土流应用平台从开发技巧到避坑指南全掌握

2020-08-22

国华电力智慧企业探索.pdf

大数据,算法,数据中台,智能电厂,国华电力智慧企业探索

2020-08-22

个性化推荐系统开发指南.pdf

推荐系统简介,推荐;排序;召回 ;基于 PAI 10 分钟搭建一个简单推荐系统;~~~~~~~~~~

2020-08-22

智能家居浅析

智能家居浅析

2015-09-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除