机器学习知识专栏
文章平均质量分 95
jcfszxc
技术探索与学习笔记。这里记录我在算法和工程领域的学习历程、思考和突破。偶尔分享个人项目和编程心得。欢迎同路人一起交流进步。(2024年9月更新)
展开
-
【机器学习:Recommendation System】推荐系统
推荐系统是一种人工智能或人工智能算法,通常与机器学习相关,它使用大数据向消费者建议或推荐其他产品。这些可以基于各种标准,包括过去的购买、搜索历史、人口统计信息和其他因素。推荐系统非常有用,因为它们可以帮助用户发现他们自己可能找不到的产品和服务。推荐系统经过训练,可以使用收集的有关人员和产品的交互数据来了解人员和产品的偏好、先前的决策以及特征。由于推荐系统能够在高度个性化的水平上预测消费者的兴趣和愿望,因此受到内容和产品提供商的喜爱。转载 2024-03-01 00:19:22 · 1976 阅读 · 1 评论 -
【机器学习:推荐系统】什么是推荐系统?
推荐系统如何工作?推荐系统生命周期推荐系统算法使用推荐系统的好处推荐系统的类型协同过滤基于内容的过滤混合过滤现实生活中的推荐系统示例亚马逊Spotify脸书/元数据Netflix谷歌和 YouTube关于推荐系统的最终想法推荐系统(或称推荐器系统)是一种软件引擎,旨在根据用户以往的好恶、产品参与度和互动情况等向用户推荐商品。推荐系统能让用户对网站持续推荐的内容保持兴趣。推荐引擎通过帮助每一位消费者识别和发现他们喜爱的电影、电视节目、数字产品、书籍、文章、服务等,提供个性化的用户体验。转载 2024-03-01 00:19:16 · 1933 阅读 · 0 评论 -
【机器学习:机器学习中的过拟合】它是什么以及如何防止它
它会受到异常值(例如,父亲是 NBA 球员的孩子)和随机性(例如,在不同年龄进入青春期的孩子)的影响。在前面对儿童身高与年龄进行建模的示例中,很明显,抽样更多学校将如何帮助您的模型。例如,如果我们的模型在训练集上的准确率达到 99%,但在测试集上的准确率仅为 55%,那么这将是一个很大的危险信号。套袋法使用复杂的基础模型,并试图 "平滑 "其预测结果,而提升法使用简单的基础模型,并试图 "提升 "其总体复杂度。过度拟合以及一般机器学习的一个关键挑战是,在实际测试之前,我们无法知道模型在新数据上的表现如何。转载 2024-02-27 09:01:25 · 1148 阅读 · 0 评论 -
【机器学习:数据集拆分】机器学习数据集的训练、验证、测试拆分
训练-测试拆分是机器学习中的一种技术,其中数据集分为两个子集:训练集和测试集。训练集用于训练模型,而测试集用于评估最终模型的性能和泛化能力。当机器学习模型在训练数据上表现良好,但无法泛化到新的、看不见的数据时,就会发生过度拟合。当经过训练的模型从训练集中学习噪声或不相关的模式时,就会发生这种情况,从而导致模型在测试集或验证集上的性能不佳。交叉验证是一种用于评估机器学习算法的模型性能和泛化能力的技术。它涉及将数据集划分为多个子集或折叠。机器学习模型在这些子集的组合上进行训练,同时在其余子集上进行测试。转载 2024-02-15 11:35:01 · 3309 阅读 · 0 评论 -
【机器学习:异常值检测】新颖性和异常值检测
scikit-learn 中异常值检测算法的比较。LocalOutlier Factor (LOF) 不会以黑色显示决策边界,因为当用于异常值检测时,它没有可应用于新数据的预测方法。并且在这里考虑的数据集上表现相当好。众所周知,它对异常值很敏感,因此在异常值检测方面表现不佳。话虽如此,在高维中检测异常值,或者对内围数据的分布没有任何假设,是非常具有挑战性的。仍可与异常值检测一起使用,但需要微调其超参数nu以处理异常值并防止过度拟合。提供非线性单类支持向量的实现,其样本数复杂度呈线性。转载 2024-01-22 19:29:13 · 1590 阅读 · 2 评论 -
【机器学习:机器学习中平衡】机器学习中平衡和不平衡数据集简介
什么是不平衡数据?为什么平衡数据集很重要收集更多数据欠采样过采样衡量损失函数的权重使用各种指标来测试模型性能使用 Encord Active 平衡数据集在确定模型性能时,机器学习工程师需要知道他们的分类模型是否能够准确预测。然而,由于准确性悖论,他们永远不应该仅仅依赖准确性来评估模型的性能。准确性的问题在于,它不一定是确定模型预测结果的良好指标。这是违反直觉的(因此出现悖论),但根据训练过程中遇到的数据,模型可能会偏向某些预测,从而导致准确预测的比例很高,但整体性能较差。转载 2024-01-17 11:35:32 · 2414 阅读 · 0 评论 -
【机器学习:训练数据集】机器学习训练数据集的完整指南
由于机器学习是一个交互式过程,因此训练数据适用于用例并对其进行适当标记至关重要。整理的数据必须与模型试图解决的问题相关。例如,如果计算机视觉模型尝试识别自行车,则数据必须包含自行车的图像,最好包含各种类型的自行车。数据的清洁度也会影响模型的性能。如果使用损坏或损坏的数据或具有重复图像的数据集进行训练,该模型将做出错误的预测。最后,正如已经讨论的那样,注释的质量对训练数据的质量有巨大的影响。这是标记图像如此耗时的原因之一,当注释团队能够使用正确的工具(例如 Encord)时,他们的效率会更高。转载 2024-01-16 11:30:52 · 3421 阅读 · 1 评论 -
【机器学习:Stochastic gradient descent 随机梯度下降 】机器学习中随机梯度下降的理解和应用
随机梯度下降(通常缩写为 SGD)是一种迭代方法,用于优化具有适当平滑特性(例如可微分或可子微分)的目标函数。它可以看作是梯度下降优化的随机近似,因为它用实际梯度的估计值(从随机选择的数据子集计算)取代了实际梯度(从整个数据集计算)。特别是在高维优化问题中,这减少了非常高的计算负担,实现了更快的迭代,以换取更低的收敛率。随机近似背后的基本思想可以追溯到 1950 年代的罗宾斯-门罗算法。如今,随机梯度下降已成为机器学习中一种重要的优化方法。统计估计和机器学习都考虑了最小化具有总和形式的目标函数的问题:Q(w原创 2024-01-07 01:21:26 · 1449 阅读 · 0 评论 -
【深度学习:Embeddings 】机器学习中Embeddings的完整指南
在人工智能中,嵌入是低维空间中一组数据点的数学表示,可捕获其潜在的关系和模式。嵌入通常用于以机器学习算法可以轻松处理的方式表示复杂的数据类型,例如图像、文本或音频。嵌入与其他机器学习技术的不同之处在于,嵌入是通过在大型数据集上训练模型来学习的,而不是由人类专家明确定义。这使得模型能够学习数据中人类难以或不可能识别的复杂模式和关系。一旦学习,嵌入可以用作其他机器学习模型的特征,例如分类器或回归器。这使得模型能够根据数据中的潜在模式和关系(而不仅仅是原始输入)做出预测或决策。转载 2024-01-07 01:18:48 · 3329 阅读 · 0 评论 -
【机器学习:余弦相似度 】机器学习中余弦相似度的理解和应用
A⋅B∣∣A∣∣∣∣B∣∣cosθA⋅B∣∣A∣∣∣∣B∣∣cosθ考虑两个 n 维的属性向量 A 和 B,它们的余弦相似度 cos(θ) 可以用它们的点积和大小(模)来表示,计算公式为cosinesimilarityScABcosθA⋅B∣∣A∣∣∣∣B∣∣∑i1nAiBi∑i1nAi2⋅∑i1nBi2cosines。原创 2024-01-06 14:58:23 · 7498 阅读 · 2 评论 -
【机器学习:欧氏距离 】机器学习中欧氏距离的理解和应用
尽管自古以来,许多文化中就再次研究了地球表面长距离的精确测量,这些距离不是欧几里得的(见大地测量学的历史),但欧几里得距离可能不是测量数学空间中点之间距离的唯一方法的想法甚至更晚,随着 19 世纪非欧几里得几何的表述。然而,它是两点的光滑、严格凸函数,与距离不同,距离是非光滑的(靠近相等的点对)和凸但不严格凸的。特别是,为了测量地球或其他球形或近球面上的大圆距离,已使用的距离包括哈弗正弦距离,给出球体上两点之间的大圆距离,从它们的经度和纬度,以及文森特公式也称为“文森特距离”,表示椭球体上的距离。原创 2024-01-06 14:03:47 · 2888 阅读 · 0 评论