机器学习
文章平均质量分 90
从西瓜书开始
数据与后端架构提升之路
没人会把我们变的越来越好,时间也只是陪衬。支撑我们变的越来越好的是我们自己不断进阶的才华,修养,品行以及不断的反思和修正
展开
-
【Kaggle比赛】DFL 德甲足球事件检测大赛(CV·目标检测-视频分类)
在这场足球事件检测比赛中,参赛者需要开发一个计算机视觉模型,目标是自动识别和分类长视频中的传球、掷界外球、传中球以及挑战等事件。这将有助于从未探索的比赛和训练课程中自动化地收集数据。比赛要求提交的解决方案必须在笔记本电脑上运行,且运行时间有限制。允许使用公开数据和预训练模型。参赛者需要处理视频,抽取帧,进行图像分类,并可能使用数据增强技术如Albumentations库来提高模型的泛化能力。集成不同模型,如YOLO和DeepSORT,可以提高检测和跟踪的准确性。最终,参赛者需要将检测到的事件及其时间戳保存到原创 2024-04-10 09:28:05 · 156 阅读 · 1 评论 -
数据挖掘比赛比较基础的baseline
本文综述了三种流行的梯度提升决策树(GBDT)库:LightGBM、XGBoost和CatBoost,强调了它们在处理大规模数据集、分类特征优化和数值计算加速方面的特点与应用。同时,文章探讨了模型参数调优的原则、模型验证方法,以及使用Numba和CuPy进行高效数值计算的技术。这些内容为机器学习从业者在选择合适工具和优化模型性能提供了宝贵的指导。原创 2024-04-01 23:47:08 · 664 阅读 · 2 评论 -
排序算法经典模型: 梯度提升决策树(GBDT)的应用实战
梯度提升决策树(GBDT)是一种基于Boosting思想和决策树的机器学习算法。它通过迭代建立决策树弱学习器来逼近目标变量,并结合了梯度下降的思想来优化损失函数。GBDT可用于回归和分类任务,广泛应用于推荐系统等领域。原创 2024-01-24 15:20:17 · 1237 阅读 · 1 评论 -
线性回归与逻辑回归:深入解析机器学习的基石模型
线性回归和逻辑回归是机器学习领域中最基础和重要的两种模型,常常作为入门学习的重点。下面我将对这两种模型的主要内容进行更详细的介绍。原创 2023-12-08 15:07:35 · 1345 阅读 · 0 评论 -
Ray构建GPU隔离的机器学习平台
Ray框架介绍Ray框架介绍Ray 是一个开源分布式计算框架,在 机器学习基础设施中发挥着至关重要的作用。Ray 促进分布式机器学习训练,使机器学习从业者能够有效利用多个 GPU 的能力。Ray可以在集群上分布式地运行任务,并且可以指定任务运行时需要使用的GPU数量。原创 2023-12-07 20:57:07 · 1274 阅读 · 0 评论 -
向量机SVM原理理解和实战
完全线性可分情况下的线性分类器,也就是线性可分的情况,是最原始的 SVM,它最核心的思想就是找到最大的分类间隔原创 2023-11-25 13:25:32 · 1487 阅读 · 1 评论 -
AdaBoost提升分类器性能
在数据挖掘中,分类算法可以说是核心算法,其中 AdaBoost算法与随机森林算法一样都属于分类算法中的集成算法.原创 2023-11-23 22:23:55 · 1026 阅读 · 0 评论 -
交替最小二乘法
ALS 算法是实现矩阵分解的一种方法,而矩阵分解是实现协同过滤的一种技术。ALS 通常用于协同过滤推荐系统中,尤其是当数据集很大且矩阵非常稀疏时。通过ALS算法的矩阵分解,可以有效地预测用户未明确表示偏好的物品评分,从而提供个性化推荐原创 2023-11-21 23:24:02 · 361 阅读 · 0 评论 -
KNN(k近邻法)算法理论和实战
KNN 是有监督学习数据集是带Label的数据,K-Means 是非监督学习,数据集是无Label,杂乱无章的数据KNN没有明显的训练过程,基于Memory-based learning;K-Means有明显的训练过程。KNN 中的 K 值代表 K 个最接近的邻居;K-Means 中的 K 值代表 K 类。原创 2023-11-21 21:03:50 · 237 阅读 · 0 评论 -
Tensorflow1架构内核和学习方法论
TensorFlow的主要作用是构建和训练复杂的机器学习模型,提供高效的并行计算能力,可视化训练过程,支持多种编程语言以及跨平台计算。这些特点使得TensorFlow成为目前炙手可热的深度学习框架之一原创 2023-09-24 23:32:57 · 430 阅读 · 0 评论 -
Python可视化工具库实战
Matplotlib,Seaborn,Graphviz原创 2023-08-24 14:17:48 · 1188 阅读 · 0 评论 -
决策树算法详解:从构造到剪枝,实战Titanic生存预测
决策树的工作原理是通过对数据集进行递归分割,将数据集划分为不同的子集,直到每个子集都属于同一类别或达到预定的停止条件。在分类时,将待分类样本从根节点开始,按照属性值依次向下遍历,直到到达叶子节点,即可得到分类结果。原创 2023-08-24 14:15:58 · 396 阅读 · 0 评论 -
集成学习:机器学习模型如何“博采众长”
集成学习核心思想是训练出多个模型并将这些模型进行组合。根据分类器的训练方式和组合预测的方法。目标就是,减少机器学习模型的方差和偏差,找到机器学习模型在欠拟合和过拟合之间的最佳平衡点。集成学习中两种最重要的方法就是:降低偏差的 Boosting 和降低方差的Bagging原创 2023-08-04 00:38:19 · 686 阅读 · 0 评论 -
PySpark机器学习实战案例
Pyspark中支持两个机器学习库:mllib及ml,区别在于ml主要操作的是DataFrame,而mllib操作的是RDD,即二者面向的数据集不一样。相比于mllib在RDD提供的基础操作,ml在DataFrame上的抽象级别更高,数据和操作耦合度更低。原创 2023-07-31 16:49:15 · 513 阅读 · 0 评论 -
K-Means(K-均值)聚类算法理论和实战
对于 n 个样本点来说,根据距离公式(如欧式距离)去计算它们的远近,距离越近越相似。按照这样的规则,我们把它们划分到 K 个类别中,让每个类别中的样本点都是最相似的。原创 2023-08-28 13:49:43 · 1958 阅读 · 0 评论 -
数学和微分角度理解梯度下降算法
梯度下降法(Gradient descent )是一个一阶最优化算法,通常也称为最陡下降法 ,要使用梯度下降法找到一个函数的局部极小值 ,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。 如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法 ,相反则称之为梯度下降法。原创 2023-02-17 03:04:36 · 653 阅读 · 0 评论