自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能(AI)技术,大模型技术,深度学习,机器学习,计算机视觉,AI工具实践应用等分享

任何疑问欢迎交流探讨,也可以直接与我联系,非常欢迎!

  • 博客(399)
  • 资源 (13)
  • 收藏
  • 关注

原创 【AI中数学-信息论-综合实例】 游戏玩家的AI梦想:使用强化学习自动征服游戏世界

随着强化学习(Reinforcement Learning, RL)技术的成熟,AI已经在多个领域展现出了超越人类的能力,尤其是在复杂的游戏环境中。强化学习通过训练代理(Agent)在特定的环境中通过探索和试错来优化决策过程,已成功应用于多个游戏领域,从经典的棋类游戏到现代的电子游戏。

2025-02-07 20:01:28 110

原创 【AI中数学-信息论-综合实例】 缩小AI巨人:大模型神经网络的压缩与裁剪

我们将探讨压缩和裁剪大规模神经网络模型的技术,使其更加高效,适用于实际应用。尽管大规模神经网络在AI中具有强大的能力,但由于其高计算需求、内存使用和推理时间,它们在实际部署中往往面临一些限制。模型压缩和裁剪技术能够使这些“AI巨人”变得更为可管理,同时在性能上不至于损失太多。

2025-02-07 19:53:22 368

原创 【AI中数学-信息论-综合】利用互信息精选特征:寻找数据中的金矿

在本节中,我们探讨了互信息在特征选择中的应用,并通过五个不同领域的实际案例,演示了如何利用互信息来优化机器学习模型的特征选择过程。无论是在文本分类、医学影像分析、广告点击率预测、金融风控还是传感器数据异常检测中,互信息都能够帮助我们识别出与目标变量高度相关的特征,从而提高模型的效率和准确性。

2025-02-06 09:56:47 1074

原创 【AI中数学-信息论】随机过程:预测未来的数学迷宫

随机过程为人工智能的多个领域提供了强大的理论支持。在这一节中,我们展示了几个与随机过程相关的实际应用案例,包括股市预测、房价回归、强化学习、排队理论和异常检测等。每个案例不仅介绍了相应的数学模型和理论背景,还通过Python代码进行了实现。这些例子展示了如何在实际应用中利用随机过程的理论来解决问题,提升预测准确性和系统效率。

2025-02-06 09:46:56 455

原创 【AI中数学-信息论】最大熵原理:当信息论遇见决策最优化

在决策科学和机器学习中,我们常常需要从多个不确定的选择中做出决策。无论是在推荐系统中选择最相关的产品、在自然语言处理中生成最合适的答案,还是在强化学习中学习最优的策略,最大熵原理都提供了一种强有力的框架来帮助我们在不完全知识下做出合理的决策。最大熵原理(Maximum Entropy Principle)最初来源于统计物理学中的熵概念,后来被引入信息论、统计学和机器学习中。它的核心思想是:在所有符合已知约束的概率分布中,选择使熵最大化的分布。这种方法在不确定性和有限信息的情况下,提供了一种合理的决策方案

2025-02-05 21:42:09 983

原创 【AI中数学-信息论】数据压缩:如何在数字世界中重新打包你的行李

数据压缩是信息论的一个重要应用领域,它不仅在存储和传输中起到关键作用,还在AI和机器学习中扮演着重要角色。从经典的霍夫曼编码和LZW压缩,到现代的深度学习模型压缩方法,数据压缩技术在AI应用中表现出巨大的潜力。无论是图像处理、视频传输、自然语言处理,还是深度学习模型训练,数据压缩都能显著提高效率,节省计算和存储资源。随着AI模型的复杂性不断增加,如何高效地压缩数据、减少模型大小、提高计算效率,将是未来研究和应用的一个重要方向。

2025-02-05 21:29:15 744

原创 【AI中数学-信息论】互信息:发现数据间隐藏的无声对话

在数据分析和人工智能的世界中,互信息(Mutual Information, MI)是一个非常重要的概念,它揭示了两个随机变量之间的相互依赖关系。通过度量两个变量之间共享的信息量,互信息帮助我们揭示数据之间隐藏的“无声对话”——即它们如何彼此关联,彼此影响。互信息不仅仅是信息论的一个抽象概念,它在实际应用中发挥着巨大的作用。从图像分析到自然语言处理,从推荐系统到生物信息学,互信息在各种AI任务中都得到了广泛的应用。让我们深入探讨互信息的定义和它在AI中的应用。

2025-02-04 18:08:38 660

原创 【AI中数学-信息论】 信息熵:测量混乱中的秘密信息量

信息熵为我们提供了一种衡量不确定性和信息复杂度的工具。在AI和机器学习中,熵不仅在理论上帮助我们理解数据的本质,还在实际应用中提供了优化模型、压缩数据、增强学习效果等多种策略。无论是决策树、深度学习、自然语言处理,还是强化学习,信息熵都是一种强大且不可或缺的工具,帮助我们更好地理解和控制数据中的信息量,提升模型的表现和效率

2025-02-04 17:59:39 850

原创 【AI中数学-信息论】 信息论与概率论:解码两个学科间的微妙联系

信息论和概率论是紧密相连的两门学科,它们在许多现代技术中发挥着关键作用。通过熵、互信息等概念,信息论不仅帮助我们量化信息的不确定性,还为信息的传输、压缩和编码提供了理论支持。概率论则为信息的表示、优化和学习提供了数学工具,使得信息论的应用可以扩展到更广泛的领域,如机器学习、数据科学等。

2025-02-03 21:04:22 845

原创 【AI中数学-信息论】 揭秘信息论:通信和数据处理的魔法工具

在我们日常的数字化世界中,信息无处不在。从发送短信到流式传输视频,从社交媒体的数据到企业的云存储系统,信息的传输和处理已经渗透到社会的方方面面。但这些看似普通的信息背后,隐藏着一个深奥的科学领域,那就是信息论。

2025-02-03 20:44:37 616

原创 【AI中数学-数理统计-综合实例-包括python实现】 揭秘参数的真相:极大似然法的统计洞察

在统计学和机器学习中,极大似然估计(Maximum Likelihood Estimation,MLE)是一种强大而常用的参数估计方法。MLE的核心思想是通过观察数据的实际表现,寻找使得这些数据最可能出现的参数值。在本节中,我们将介绍极大似然法在AI中的多个应用场景,重点讲解如何通过极大似然估计来估计模型的参数,并通过实际案例帮助读者理解其应用。

2025-02-02 13:07:03 799

原创 【AI中数学-数理统计-综合实例-包括python实现】 警察抓小偷的统计游戏:假设检验用于异常检测

五个不同领域的案例,我们展示了假设检验在异常检测中的多种应用。无论是在金融、工业、网络安全还是社交媒体分析中,假设检验为我们提供了强大的统计工具,可以检测出数据中显著偏离正常模式的异常点。在实际应用中,结合假设检验与机器学习等技术,可以更好地发现并解决潜在的问题。

2025-02-02 13:01:37 881

原创 【AI中数学-数理统计-综合实例-包括python实现】 找出真正影响结果的因素:方差分析用于特征选择

展示了方差分析(ANOVA)如何帮助我们从大量特征中筛选出对目标变量具有显著影响的特征。通过五个不同的实际应用案例,展示了ANOVA在分类问题和回归问题中的广泛应用。对于每个案例,我们都通过Python代码实现了ANOVA的特征选择,并通过p值判断特征的重要性。方差分析不仅有助于提高模型性能,还能有效降低过拟合的风险。通过这种方法,我们可以确保模型关注于那些对目标变量最具影响力的特征,从而提高模型的准确性和泛化能力

2025-02-01 19:38:27 825

原创 【AI中数学-数理统计-综合实例-包括python实现】 构建数据的曲线故事:多项式回归

介绍多项式回归(Polynomial Regression),一种用于拟合非线性数据的回归分析方法。通过多个实际的AI应用案例,我们将展示如何在不同的场景中应用多项式回归来建立精确的预测模型。每个案例不仅涵盖了算法步骤、分析和实现,还包含了详细的Python代码和注释,帮助读者更好地理解多项式回归的应用。

2025-02-01 19:32:26 586

原创 【AI中数学-数理统计-综合实例-包括python实现】在数据噪声中寻找信号:RANSAC拟合高鲁棒回归模型

随机采样一致性(RANSAC, Random Sample Consensus) 是一种强大的鲁棒拟合方法,它通过迭代选择数据的子集,并评估最佳拟合,从而降低噪声对模型的影响。在本节中,我们将通过 5 个不同的 AI 实际应用案例,详细探讨 RANSAC 在回归和其他建模任务中的应用。

2025-01-31 16:45:00 985

原创 【AI中数学-数理统计-综合实例-包括python实现】让模型保持诚实:正则化防止过拟合

在人工智能(AI)领域,正则化(Regularization)是一种重要的统计技术,它能够有效防止模型在训练数据上表现良好,而在测试数据上表现不佳(即过拟合)。在本节中,我们将介绍 L1 正则化(Lasso)、L2 正则化(Ridge)、弹性网络(Elastic Net)、Dropout、数据增强(Data Augmentation) 这五种常见的正则化方法,并提供实际应用案例,详细分析如何在 AI 任务中利用它们保持模型的“诚实”。

2025-01-31 16:15:00 650

原创 【AI中数学-数理统计-综合实例-包括python实现】 最简单的AI模型:线性回归和逻辑回归

在线性回归和逻辑回归中,数理统计提供了强大的理论支持。这两种模型被广泛应用于各种AI和数据科学的任务中,尤其是因为它们的计算简单、易于理解,并且在许多实际问题中表现出色。在本节中,我们将通过五个案例,分别展示线性回归和逻辑回归的应用。每个案例都将从模型选择、数据预处理、算法步骤、Python实现等方面进行详细分析。通过这些案例,我们将进一步理解如何通过简单的统计方法构建高效的AI模型。

2025-01-30 16:30:00 1764

原创 【AI中数学-数理统计-综合实例-包括python实现】 揭开数据的面纱:真实样本数据的探索与可视化

在人工智能(AI)应用中,数据是构建算法和模型的基石,而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤,它们不仅能帮助我们理解数据的分布、关系和趋势,还能够为后续的建模工作提供依据。本节将通过五个实际案例,展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描述、分析步骤、所用算法、Python代码及详细注释,帮助读者更好地理解数据探索和可视化的核心思想与技巧。

2025-01-30 16:00:00 827

原创 【AI中数学-数理统计】 统计可视化:数据故事的画师

统计可视化不仅是数据分析的核心组成部分,也是数据讲述故事的艺术形式。在信息时代,数据的巨大增长给决策者、研究者和一般观众带来了前所未有的挑战与机遇。通过有效的统计可视化,复杂的数据可以转化为易于理解的图形,让潜在的洞察力跃然纸上。统计可视化不仅仅是美学的呈现,它同时肩负着揭示数据中内在结构、分布、趋势与异常的重任

2025-01-29 14:40:33 689

原创 【AI中数学-数理统计】相关分析:揭示数据关系的线索

在数据科学和人工智能领域,相关分析是理解变量之间关系的重要工具。它不仅限于线性关系,还可以揭示非线性关系、多变量关系以及因果关系等。本节将通过多个实际案例,展示相关分析在不同场景中的应用,帮助读者更全面地理解这一方法。

2025-01-29 13:30:48 753

原创 【AI中数学-数理统计】假设检验:科学实验的裁判

假设检验是统计学中非常重要的工具,它帮助我们从样本数据中推断总体参数是否符合某个假设。在实际应用中,假设检验广泛应用于科学实验、商业决策、医学研究以及AI模型的评估等领域。通过与点估计的结合,假设检验不仅能提供对某一参数的估计,还能对该估计是否合理进行科学验证。

2025-01-28 16:30:00 1444

原创 【AI中数学-数理统计】区间估计:估计的安全边界

区间估计是一种比点估计更为可靠的估计方法,因为它提供了一个估计值的范围,而不仅仅是一个单一的数值。在许多AI应用中,区间估计可以为我们提供对模型预测结果、广告点击率、股票回报率等参数的更深刻理解,尤其是在模型输出带有不确定性的情况下。

2025-01-28 15:45:00 709

原创 【AI中数学-数理统计】参数估计:寻找未知数的最佳猜测

在数理统计中,参数估计是指通过样本数据来推测总体参数的过程。实际应用中,很多问题的核心就在于如何从有限的样本中找到未知的“最佳猜测”。这种猜测的质量对我们建立有效的模型至关重要,因为模型的预测能力直接依赖于参数的估计值是否准确。在人工智能(AI)领域,尤其是机器学习和深度学习中,参数估计几乎贯穿于每个算法的训练过程。从线性回归到神经网络的训练,甚至是贝叶斯推断,参数估计都起着至关重要的作用。本节将详细介绍参数估计的概念,分析其应用,并通过三个AI领域的案例来帮助读者更好地理解如何进行参数估计。

2025-01-27 16:15:00 1822

原创 【AI中数学-数理统计】抽样分布:样本的族谱

抽样分布是数理统计中非常重要的一个概念。它不仅是理解统计推断的基础,还在各种实际问题中得到了广泛应用。在机器学习和人工智能(AI)领域,抽样分布的理解对于建模、算法设计和结果评估都有着至关重要的作用。本节将详细探讨抽样分布的概念,并结合实际的AI应用案例,帮助读者更好地理解抽样分布在AI中的应用。

2025-01-27 11:26:22 703

原创 【AI中数学-数理统计】分位点:数据的分水岭

在数据分析和统计学中,分位点(Quantile)是一个非常重要的概念。它通过将数据集分成若干个相等的部分,帮助我们从不同角度理解数据的分布。分位点不仅在统计学中具有广泛应用,而且在人工智能(AI)领域中也扮演着关键角色,尤其是在数据预处理、异常值检测、模型评估等方面。

2025-01-26 16:45:00 564

原创 【AI中数学-数理统计】中心极限定理:普通数据的不平凡旅程

中心极限定理(Central Limit Theorem, CLT)是数理统计中的一个核心概念,它描述了在一定条件下,无论原始数据的分布如何,样本均值的分布都会趋近于正态分布。这一定理在很多AI应用中发挥着重要作用,尤其是在数据处理、模型训练和预测中,能够有效地帮助我们理解和处理大量数据带来的不确定性。

2025-01-26 16:00:00 1060

原创 【AI中数学-数理统计】大数定律:大样本的神奇力量

大数定律作为数理统计中的一项重要原理,不仅为我们提供了理论上的保障,也在实际的AI应用中发挥着关键作用。从回归分析到神经网络训练,再到推荐系统,大数定律都帮助我们理解如何通过大量数据来逼近真实的模型参数或预测结果。随着样本量的增加,统计量将逐渐收敛,从而提升模型的准确性和稳定性。在大数据时代,理解和应用大数定律的思想对于提高AI系统的性能至关重要。

2025-01-25 11:00:59 1199

原创 【AI中数学-数理统计】连续和离散数据统计量对比:无限维度与有限世界

探讨了连续数据和离散数据的基本统计量,比较了它们在无限维度与有限世界中的不同表现。通过均值、方差、标准差等统计量的计算和对比,我们理解了如何从不同类型的数据中提取关键信息,并将这些统计量应用于AI领域中的各种实际案例中。

2025-01-25 10:19:02 651

原创 【AI中数学-数理统计】统计量:数据的量尺和罗盘

在统计学中,统计量是我们用来总结、描述和推断数据的关键工具。它们就像是数据的“量尺”和“罗盘”,帮助我们理解数据的分布、趋势和变化。在AI应用中,统计量不仅是数据分析的核心,也是决策支持和模型优化的基础。不同的统计量提供了关于数据的不同视角,而它们的选择和应用直接影响着我们对数据的理解和模型的效果。

2025-01-24 10:17:40 1068

原创 【AI中数学-数理统计】总体与样本:统计学中的宇宙与行星

总体与样本的概念不仅是统计学的基础,也是AI和机器学习中的核心概念。在数据有限的情况下,我们必须通过对样本的仔细分析和推断来估计总体的特性。无论是在广告点击率预测、疾病流行率分析,还是深度学习中的图像分类,样本的代表性、抽样误差、置信区间的估计,样本大小的选择,都是数据科学家和AI研究者需要精心设计和考虑的因素。

2025-01-24 09:56:01 625

原创 【AI中数学-数理统计】与概率论的舞蹈:数理统计的理论基石

数理统计和概率论是密不可分的。实际上,数理统计的核心在于通过概率模型来理解数据的分布和行为,并在此基础上做出合理的推断与预测。在人工智能(AI)的应用中,数理统计和概率论紧密合作,提供了对数据的深刻洞察,并帮助我们做出数据驱动的决策。本节将深入探讨概率论与数理统计之间的关系,阐明其在AI中的应用基础,并通过三个实际案例详细展示其实际应用

2025-01-23 15:45:00 1036

原创 【AI中数学-数理统计】数理统计:数据的科学解码器

数理统计在人工智能中的应用,强调了它在数据分析、模型建构、误差优化等方面的重要性。通过三个实际的AI应用案例,我们展示了数理统计如何帮助我们从数据中提取有效信息,进而提升模型的预测能力和应用效果。从客户流失预测到图像识别,再到推荐系统,数理统计为AI应用提供了坚实的理论基础和实际方法。

2025-01-23 15:00:00 716

原创 【AI中数学-概率论-综合实例-包括python实现】 群体中的个性:混合高斯模型聚类探索

混合高斯模型(Gaussian Mixture Model,GMM)是一种基于概率模型的聚类算法。它假设数据集是由多个高斯分布(也称为高斯成分)混合而成的,每个成分代表数据的一个簇。通过估计这些成分的参数(均值、协方差和权重),混合高斯模型能够在数据中发现潜在的群体结构,尤其适用于处理带有噪声和不规则分布的数据。

2025-01-22 16:00:00 1026

原创 【AI中数学-概率论-综合实例-包括python实现】 文本的编织者:条件随机场在自然语言处理的应用

条件随机场(Conditional Random Fields,CRF)是一类强大的概率图模型,广泛应用于自然语言处理(NLP)中的序列标注任务。它通过最大化标签序列条件概率来建模输入数据的结构化预测问题。CRF 特别适用于序列数据,在很多 NLP 任务中,如命名实体识别(NER)、词性标注(POS tagging)、分词等任务中表现出了强大的性能。

2025-01-22 15:30:00 1584

原创 【AI中数学-概率论-综合实例-包括python实现】 动作的语言:隐马尔可夫模型识别人体动作

隐马尔可夫模型(HMM)在人体动作识别中有着广泛的应用,尤其是在步态识别、手势识别以及多种活动识别任务中。通过将这些任务分解为一系列隐状态的序列,并且利用 HMM 进行建模,能够高效地从时序数据中提取出模式和规律。

2025-01-22 15:00:00 755

原创 【AI中数学-概率论-综合实例-包括python实现】 绘制现实:马尔可夫随机场在图像处理中的魔法

马尔可夫随机场(Markov Random Field,简称MRF)是一种强大的概率模型,广泛应用于图像处理、计算机视觉、自然语言处理等领域。在图像处理任务中,MRF能够有效地建模像素之间的依赖关系,通过全局和局部信息的结合,进行高效的图像重建、去噪、分割、纹理生成等任务

2025-01-21 17:59:17 1025

原创 【AI中数学-概率论-综合实例-包括python实现】 预测的守望者:动态贝叶斯网络在风险预警中的应用

在许多现实世界的应用中,预测和风险评估通常不仅依赖于静态的输入数据,而是需要考虑时间维度和动态变化。动态贝叶斯网络(DBN, Dynamic Bayesian Network)作为一种扩展了传统贝叶斯网络的工具,可以有效地处理时间序列数据,并进行时序预测。与静态贝叶斯网络不同,DBN能够通过建模系统状态随时间的变化,揭示出更为复杂的因果关系,这使得它在金融、医疗、工程等领域的风险预警和决策支持中得到了广泛的应用。

2025-01-21 17:51:29 858

原创 【AI中数学-概率论-综合实例-包括python实现】 医疗中的概率网络:贝叶斯网络的治疗之道

在医疗领域,贝叶斯网络作为一种强大的概率推理工具,已经被广泛应用于疾病诊断、治疗方案推荐以及患者健康监测等多个方面。通过贝叶斯网络,可以将复杂的医学知识和临床数据转化为数学模型,从而帮助医生做出更加精确的决策。

2025-01-21 17:43:46 1075

原创 【AI中数学-概率论】贝叶斯分析:后验的智慧

详细介绍了贝叶斯定理的核心思想,并通过垃圾邮件分类、医疗诊断和贝叶斯优化等实际案例,展示了贝叶斯方法在AI中的广泛应用。贝叶斯方法不仅能够有效地应对不确定性,还能够结合先验知识和新数据进行持续优化,帮助AI系统做出更加精确的预测和决策。

2025-01-20 15:45:00 2011

原创 【AI中数学-概率论】混合分布:概率的大熔炉

混合分布是AI中一个非常强大的工具,尤其适用于数据集呈现出多模态分布的情形。在实际应用中,混合分布可以帮助我们处理复杂的分类、聚类和建模问题。通过高斯混合模型(GMM)等技术,AI系统能够更好地捕捉数据的内在结构,提升其准确性和鲁棒性。

2025-01-20 15:00:00 1086

危险驾驶行为图像数据集-开车电话-喝水等

危险驾驶行为图像数据集-开车电话-喝水等。 车内监控危险驾驶行为图像数据,包括电话、喝水等危险行为,还有txt和json格式的目标位置坐标数据,包括常见的一共2000张图像,包括1000张RGB彩色图像,1000张红外图像。可应用于驾驶员监控。

2024-02-12

美国联邦选举委员会-政治竞选赞助方面的数据集

美国联邦选举委员会-政治竞选赞助方面的数据集。 美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。样本数据量100w条左右。可用于机器学习和数据分析

2024-02-12

食品营养信息数据集

食品营养信息数据集。美国农业部(USDA)制作了一份有关食物营养信息的数据,包括食品的描述,标签,厂家,分组,成分和营养等信息。样本有6636条

2024-02-12

海地地震危机数据集

海地地震危机数据集。海地地震危机与求助数据,可以根据数据标记地图求助信息。

2024-02-12

泰坦尼克号数据集

泰坦尼克号数据集。 Titanic数据集在数据分析领域是十分经典的数据集。泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢? 数据集包含11个特征,分别是: Pclass:乘客所持票类,有三种值(lower,middle,upper) Survived:0代表死亡,1代表存活 Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失)

2024-02-12

美国政府网站访问情况数据集

美国政府网站访问情况数据集。美国政府网站http://USA.gov部分用户匿名数据。数据是JSON格式,包括用户所在时区,用户终端信息等。

2024-02-12

住房信息数据集

住房信息数据集。 housing.data 包含506个样本,样本包含14个不同的特征: 1.人均犯罪率。 2.占地面积超过 25000 平方英尺的住宅用地所占的比例。 3.非零售商业用地所占的比例(英亩/城镇)。 4.查尔斯河虚拟变量(如果大片土地都临近查尔斯河,则为 1;否则为 0)。 5.一氧化氮浓度(以千万分之一为单位)。 6.每栋住宅的平均房间数。 7.1940 年以前建造的自住房所占比例。 8.到 5 个波士顿就业中心的加权距离。 9.辐射式高速公路的可达性系数。 10.每 10000 美元的全额房产税率。 11.生师比(按城镇统计)。 12.1000 * (Bk - 0.63) ** 2,其中 Bk 是黑人所占的比例(按城镇统计)。 13.较低经济阶层人口所占百分比 14.房价

2024-02-12

商铺logo图像集

商铺logo图像集. 样本数量:3725 简介:包括星巴克、屈臣氏、宝岛眼镜等常见的100个不同商家店铺的logo招牌图像数据集,每个商家的logo图像有400个左右。可以用于深度学习图像分类训练的学习。

2024-02-12

糖尿病数据集

糖尿病数据集。数据包括768个样本。可用于机器学习研究。 1、该数据集最初来自美国糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。   2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。   3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。   4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别

2024-02-12

乳腺癌数据集.zip

乳腺癌数据集。数据集来自UCI机器学习存储库的wdbc.data(威斯康星乳腺癌数据集),其中包含了569个正常和异常的细胞样本,特征共30个。在整个569个患者中,一共有357个是良性,212个是恶性。

2024-02-12

阿里真实用户-商品行为数据-推荐系统

阿里真实用户-商品行为数据-推荐系统应用。 样本数量:tianchi_mobile_recommend_train_item 商品信息 50w左右 tianchi_mobile_recommend_train_user 用户商品交互信息 500w左右 tianchi_mobile_recommend_train_user_down2 用户商品交换信息2 500w左右 简介:以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据,表名为tianchi_mobile_recommend_train_user和tianchi_mobile_recommend_train_user_down2。 第二个部分是商品子集,表名为tianchi_mobile_recommend_train_item。 可应用于推荐系统的训练与测试。

2024-02-12

电商网站销售数据

电商网站销售数据。样本数量:541909 简介:数据集来自一个在英国注册的在线电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据,共有541909条记录、8个字段。

2024-02-12

搜狗用户画像数据集

搜狗用户画像数据集。20w(20万)。 简介:在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。 举例如下: 1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关 2、 男性相比女性会在军事、汽车等主题有更多的搜索行为 3、 高学历人群会更加倾向于获取社会、经济等主题的信息 用户画像是对用户的描述,一般用来精准营销。搜狗用户画像,通过搜狗搜索数据来描述用户,进行数据挖掘,使用在大数据精准营销中。 提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。 属性字段说明:提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历等信息)

2024-02-12

开车打手机图像数据集.zip

开车打手机图像数据集。样本数量:1051 简介:包含车内开车打手机的图像和对应手机位置的标记文件,标记文件为xml格式。可以用于打手机目标检测的训练数据集。

2024-02-12

申请贷款者信息与信用记录数据集

申请贷款者信息与信用记录数据集。样本数量:700 简介:信贷情况的数据集。可以对贷款者的信用进行预测。

2024-02-12

公寓租赁信息受欢迎程度预测数据集.zip

公寓租赁信息受欢迎程度预测数据集。样本数量:49352 简介:根据列表内容,如文字描述、照片、卧室数量、价格等,来预测一个公寓租赁清单的受欢迎程度。数据来自renthop.com,一个公寓上市网站。这些公寓位于纽约市。目标变量interest_level由清单在网站上运行期间的查询次数定义。

2024-02-12

脑中风预测数据集

脑中风预测数据集。样本数量:5110 简介:根据世界卫生组织(WHO)的数据,中风是全球第二大死亡原因,约占总死亡人数的11% 。这个数据集被用来根据输入的参数如性别、年龄、各种疾病和吸烟状况来预测病人是否可能得中风

2024-02-12

服装员工生产率预测数据集

服装员工生产率预测数据集,样本数量:1197 简介:此数据集包含服装生产过程的重要属性和员工的生产率,这些属性已手动收集并已得到行业专家的验证。该数据集可通过预测生产率范围(0-1)来用于回归目的,也可以通过将生产率范围(0-1)转换为不同的类别来进行分类. 每个样本15个属性值。

2024-02-12

足球运动员数据集.

足球运动员数据集,样本数量:10441。 简介:每条样本代表一位球员,数据中每个球员有61项属性。数据中含有缺失值。每个足球运动员在转会市场都有各自的价码。数据的目的是根据球员的各项信息和能力来预测该球员的市场价值。数据来源于FIFA2018。

2024-02-12

心脏病发作预测数据集.

心脏病发作预测数据集,样本数量:303 简介:心脏病人信息,心脏病发作分类预测。含义年龄、性别、胸痛类型等14个属性。

2024-02-12

chatGPT从入门到精通

chatGPT从入门到精通,一共116页,是chatgpt入门的优秀文档。

2024-12-21

用于安全带检测的车内驾驶安全带图像

一共包括1080张车内带有安全带的人员驾驶图像,同时包括对应的1080个安全带目标检测的位置标记文件。可以用于驾驶员监控的安全带的目标检测训练。

2024-06-30

深度学习-人脸卡通化-实现代码

python环境,包括推理和训练代码。包括pytorch模型和onnx模型。有预训练模型,可以直接对人脸图像进行卡通化,有训练代码,可以自己根据需要,使用自己的数据集,重新训练自己的模型。

2024-02-16

深度学习-目标检测-密集人头检测数据集002

深度学习-目标检测-密集人头检测数据集 注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集001“ brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。

2024-02-12

深度学习-目标检测-密集人头检测数据集001

深度学习-目标检测-密集人头检测数据集,brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集002“

2024-02-12

深度学习-目标检测-人头数据集002

深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。 该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集001“

2024-02-12

深度学习-目标检测-人头数据集001

深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。 该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集002“

2024-02-12

深度学习-猫和狗图像集

一共30000(3w)张左右图像,包括各种猫和狗的图像,可以用于深度学习的分类训练。

2024-02-12

车内驾驶员行为图像集包括打手机-喝水-转身等情景

车内驾驶员行为图像集包括打手机-喝水-转身等情景,样本数量:2w左右

2024-02-12

深度学习-表情识别-人脸表情数据集002

深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集001“

2024-02-12

深度学习-表情识别-人脸表情数据集001

深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集002“

2024-02-12

各种室内场景图像集003

各种室内场景图像集003。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集002“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

各种室内场景图像集002

各种室内场景图像集002。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

各种室内场景图像集001

各种室内场景图像集001。注意由于文件大小限制,需要分成3个文件,仅仅该文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集002“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

苹果与橘子图像数据集

苹果与橘子图像数据集. 一共包括1261张各种苹果的图像和1267张各种橘子的图像。可以用于橘子和苹果纹理转换等的深度学习训练。

2024-02-12

人脸图像集

人脸图像集. 一共9573张各种人脸图像

2024-02-12

垃圾邮件数据集

垃圾邮件数据集。包括16556个正常邮件内和27360个垃圾邮件内容。

2024-02-12

全美婴⼉姓名数据集

全美婴⼉姓名数据集。从1880年-2010年的全美婴儿姓名数据的数据集,包含出生年份,性别,名字等。利用这份数据可以对婴儿名字进行分析。

2024-02-12

电影评分数据集-用于电影推荐系统

电影评分数据集-用于电影推荐系统。有两个数据集。 数据集1:包括movies.csv和ratings.csv两个文件。movies.csv文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。ratings.csv文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。这里的评分时间是用unix时间戳表示的。在这个数据集中并没有提供用户的个人信息,可能是出于保护用户隐私的考虑。 数据集2:ratings.dat是另一个电影评分数据集。包含了6000多位用户对近3900个电影的共100万(1,000,209)条评分数据,评分均为1~5的整数,其中每个电影的评分数据至少有20条。

2024-02-12

葡萄酒数据集

葡萄酒数据集。 Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。数据里含有178个样本分别属于三个类别,这些类别已经给出。每个样本含有13个特征分量(化学成分),分析确定了13种成分的数量,然后对其余葡萄酒进行分析发现该葡萄酒的分类。 每行代表一种酒的样本,共有178个样本;一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本

2024-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除