妙龄少女郭德纲-CSDN博客

原创机器学习中分类问题的各类评估指标总结

召回率计算方式、适用场景、局限性。

2024-09-23 10:37:41 750

原生的Spark MLlib并不支持LightGBM算法的实现，但SynapseML提供了一种解决方案，使得我们可以在Spark中调用LightGBM。LightGBM是一种基于梯度提升决策树的高效机器学习框架，它专门用于创建高质量的决策树算法，适用于分类、回归和排名等多种机器学习任务。通过SynapseML，LightGBM可以与Spark MLlib无缝集成，利用Spark的分布式计算能力，实现对大规模数据集的高效处理。高性能：LightGBM以其快速的训练速度和低内存消耗而闻名，这使得它在处理大规模数

2024-09-23 10:23:48 813

原创基于Spark框架实现XGBoost模型

原生的Spark MLlib并不支持XGBoost算法，但XGBoost4J-Spark提供了一种解决方案，使得我们可以在Spark环境中调用XGBoost。XGBoost4J-Spark是一个项目，旨在无缝集成XGBoost和Apache Spark，通过适配XGBoost到Spark的MLlib框架。这样，用户不仅可以使用XGBoost的高性能算法实现，还可以利用Spark强大的数据处理引擎来进行特征工程、构建和评估机器学习管道、持久化机器学习模型等。分布式计算：XGBoost4J-Spark充分利用S

2024-09-14 10:36:49 973

原创 ARIMA算法族原理详细解析

ARIMA算法族是最为经典的统计学领域时序模型，同时也是最经典的适用于单变量时序数据的模型，本文将详细介绍这一经典模型的原理与应用。什么是自回归模型什么是移动平均模型什么是自回归移动平均模型

2024-09-13 10:38:35 442

原创图计算：基于SparkGrpahX计算聚类系数

聚类系数（Clustering Coefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的指标。它主要衡量一个节点的邻居之间的连接程度，反映了图中局部的紧密性或群聚程度。聚类系数可以用来揭示网络中的社区结构和节点之间的关系。聚类系数适用于无向图，PageRank适用于有向图。聚类系数的定义。

2024-09-12 10:12:41 646

原创时序数据的去时序化

在数据分析的众多挑战中，时序数据的处理尤为棘手。时序数据的去时序化，即将数据从其固有的时间序列结构中解放出来，转化为可以被传统机器学习算法处理的形式，是数据预处理的关键步骤。这一过程对于提高模型的泛化能力和预测精度至关重要。本文将深入探讨去时序化的概念、方法及其在实际应用中的重要性，为你揭示如何从时间的束缚中释放数据的真正潜力。对时序数据进行去时序化处理，然后再使用一些传统的机器学习or深度学习模型进行建模，是在实际工作当中，非常常用的一种处理手段，比纯应用针对时序数据的模型进行建模更加常用，毕竟时序模型可

2024-09-11 10:13:50 530

原创深入时序分析：分类、模型与算法全景解析

在数据科学的广阔领域中，时序数据以其独特的时间属性和动态变化特性，成为了分析和预测的重要对象。无论是金融市场的股价波动、电商平台的销售趋势，还是医疗健康领域的生理信号监测，时序数据都扮演着关键角色。为了更好地理解和利用这些数据，我们需要掌握时序数据的分类方法、构建有效的时序模型，以及运用恰当的算法进行深入分析。本文将带你走进时序数据的世界，从数据分类到模型构建，再到算法应用，为你提供一幅全面的时序分析全景图。

2024-09-10 10:15:55 1330

原创 Spark常见面试题整理

之前写过不少SparkMLlib和SparkGraphX的应用，但是一直都没有像Flink那样系统的写过它的架构和API等，一方面是它们有很多类似的情况，基本都是一通百通，另一方面是确实懒，最近两天整理文档翻到之前整理的一些面试题和工作中积累的一些有关Spark的问题，再整理一下发出来~分两种情况，一是小表Join大表，二是大表Join大表（小表Join小表，没有优化的必要），这里表的书法只是一种泛指，Spark中的join操作通用，包括RDD的Join。Spark中如何优化Join操作？数据倾斜指的是数据

2024-09-06 10:08:09 673

原创记一种常用的实时数据同步方案：Canal+Kafka+Flume

在当今数据驱动的业务环境中，数据同步是确保系统间数据一致性的关键环节。一种高效、稳定且可扩展的数据同步方案对于支撑企业的数据处理和分析需求至关重要。本文将介绍一种结合了Canal、Kafka和Flume的数据同步方案，探讨其架构设计、实现原理以及为何它能在多种场景下提供卓越的性能。通过深入分析这一方案的组件和工作流程，我们将展示其在数据同步任务中的强大能力。Canal 配置：目的：监听数据库的Binlog，捕获数据变更。配置：在Canal的配置文件中指定数据库的地址、端口、用户名、密码以及要监听的数据库和表

2024-09-04 12:17:51 862

原创离线数据同步工具DataX

DataX，作为一款由阿里巴巴开源的离线数据同步工具，以其强大的数据抓取、转换和加载能力，成为了数据工程师和数据科学家们手中的利器。DataX以其简单易用、高性能、高可靠性和良好的扩展性，满足了企业在数据迁移、数据备份、数据同步等多种场景下的需求。它支持丰富的数据源和目标端，包括关系型数据库、文件系统、大数据平台等，使得数据的流动变得灵活而高效。DataX的设计理念在于提供一个稳定、高效、易扩展的数据同步框架，帮助企业构建起数据的高速公路，让数据在不同系统间自由流动，为企业的数据驱动战略提供坚实的基础（主要

2024-09-03 11:15:40 371

原创基于SparkGraphX实现带权重的PageRank算法

网页排序算法之PageRank其实PageRank也没跳出之前在前几篇文章中提到过的Pregel三件套，步骤一样，按需求修改源码即可。

2024-09-02 12:18:03 583

原创使用SparkGraphX进行图计算时的编码问题

在SparkGraphX体系中，要求图网络中的点ID必须为Long类型，不像Python中的networkX工具包支持字符串类型的节点表示，但在现实场景中，有很多情况下，点ID都是字符串类型的，如身份证号、设备号或是埋点采集到的uid等等，都不是单纯能够使用Long类型来表示的。为解决上述问题，本文将提出两种解决方案，分别是Hash编码以及Row_number编码，接下来本文将详细描述上述两种方案的优缺点以及实现代码（基于Scala实现）。与Python自带的Hash编码不同，Java中的hash编码，多

2024-08-27 11:49:33 591

原创基于SparkGraphX实现标签传播（LPA）算法

标签传播算法（LPA）与Louvain一样，同样是一种常用的社群发现算法，它的基本思想是让图中的节点根据邻居节点的标签（即社区信息）来更新自己的标签。算法的目标是在迭代过程中达到一个稳定状态，这个稳定状态是指大多数节点的标签与其最多邻居的标签相同。其实点类似连通分量算法，但不同的是连通分量算法中互相连通的节点都会被划分到同一组，而在标签传播算法中，则存在一个少数服从多数的概念，即相互连通的节点并不一定属于同一社群，而是每个节点都和它周围“多数”的节点属于同一个社群。原生的SparkGraphX中自动支持LP

2024-08-26 12:07:08 431

原创基于Spark计算网络图中节点之间的Jaccard相似性

什么是MinHashLSH。

2024-08-22 16:16:58 631

原创基于Spark实现大数据量的Node2Vec

Node2Vec 是一种基于图的学习算法，用于生成图中节点的低维度、高质量的向量表示。这种算法基于 word2vec 模型，将自然语言处理中的词嵌入技术应用于图结构的节点，以捕捉节点之间的复杂关系。Node2Vec 特别强调同时保留图中的局部（微观）和全局（宏观）结构信息。Node2Vec生成的节点嵌入可以有效的表示节点的网络邻域结构，其中相似或功能相关的节点在向量空间中彼此靠近，并且也可以当做特征输入到下游的机器学习任务。之前有写过一篇Python实现Node2Vec的文章，里面详细写了算法原理以及实现

2024-08-21 17:18:58 504

原创基于SparkGraphX实现大数据量的Louvain算法（附Scala代码）

之前针对社群发现类算法有写过一篇用Python实现的面向小数据集的文章，其中也有涉及到Louvain算法的原理，今天这篇将主要专注于借助SparkGraphX实现Louvain算法的实现方案，该方案将更适用于大数据量，并且扩展性较好，集群资源给够就可以支持更大的数据量。不过需要注意的是，图计算框架SparkGraphX其实并不算是一个非常高效的框架（存在数据交换开销等等，可以查下资料图片），但是由于其依托于成熟的大数据框架Spark而实现，故而可以说是大数据图计算领域最为常用的一个图计算框架。其他的图计算框

2024-08-20 17:58:18 822

原创 Flink常见面试题整理

将无限数据流切割成有限的“数据块”进行处理，即为所谓的窗口。什么是Flink中的窗口。

2024-08-15 16:34:55 761

原创服务器网络不通排查方案

最近遇到了服务器上服务已经启动，但是在浏览器上无法访问的问题，记录一下排查流程netstat 命令用于显示各种网络相关信息，如网络连接、路由表、接口统计等。它可以帮助系统管理员和网络工程师监视和诊断网络问题。常见用法和功能：netstat -aptn 命令netstat -aptn 是 netstat 命令的一个常见用法，通常用于详细列出系统上所有的网络连接和相关进程信息。详细解释：-a 参数：显示所有的网络连接，包括正在进行的连接和监听状态的连接。-p 参数：显示与网络连接相关联的进程信息（PID 和

2024-08-08 11:50:20 1690

原创万字总结CatBoost原理、核心参数以及调优思路（下篇）

处理类别特征: CatBoost可以自动处理类别数据，无需进行繁琐的预处理，如独热编码。它使用了一种特殊的算法来处理这些特征，从而提高模型的效率和准确性，简化了数据处理流程。避免过拟合: 通过实现了有序的提升和自动调节的深度，CatBoost能有效控制过拟合，尤其是在数据量不大的情况下。速度和可扩展性: CatBoost提供了高效的实现，能够快速训练大规模数据集，并且可以使用GPU加速计算。多平台和多语言支持: CatBoost支持Python、R、Java等多种编程语言，并且可以在Linux、Window

2024-08-06 10:11:38 1073

原创 Flink笔记整理（七）

在Flink中，有一套完整的容错机制来保证故障后的恢复，其中最重要的就是检查点。周期性的触发保存“随时存档”确实恢复起来方便，可是需要我们不停地做存档操作。如果每处理一条数据就进行检查点的保存，当大量数据同时到来时，就会耗费很多资源来频繁做检查点，数据处理的速度就会受到影响。所以在Flink中，检查点的保存是周期性触发的，间隔时间可以进行设置。保存的时间点我们应该在所有任务（算子）都恰好处理完一个相同的输入数据的时候，将它们的状态保存下来。保存的具体流程检查点的保存，最关键的就是要等所有任务将

2024-08-05 10:41:29 913

原创 Flink笔记整理（六）

托管状态（Managed State）和原始状态（Raw State）Flink的状态有两种：托管状态（Managed State）和原始状态（Raw State）。托管状态就是由Flink统一管理的，状态的存储访问、故障恢复和重组等一系列问题都由Flink实现，我们只要调接口就可以；而原始状态则是自定义的，相当于就是开辟了一块内存，需要我们自己管理，实现状态的序列化和故障恢复。通常我们采用Flink托管状态来实现需求。算子状态（Operator State）和按键分区状态（Keyed State）

2024-07-31 15:23:04 1310

原创万字总结CatBoost原理、核心参数以及调优思路（上篇）

CatBoost，全称Categorical Boosting，是由俄罗斯搜索引擎公司Yandex开发的一种高效的梯度提升决策树（Gradient Boosting Decision Trees, GBDT）算法（与XGBoost一样，也是拟合二阶泰勒展开）。

2024-07-29 17:41:27 2433

原创 Flink笔记整理（五）

之前所介绍的流处理API，无论是基本的转换、聚合，还是更为复杂的窗口操作，其实都是基于DataStream进行转换的，所以可以统称为DataStream API。在Flink更底层，我们可以不定义任何具体的算子（比如map，filter，或者window），而只是提炼出一个统一的“处理”（process）操作——它是所有转换算子的一个概括性的表达，可以自定义处理逻辑，所以这一层接口就被叫作“处理函数”（process function）。之前学习的转换算子，一般只是针对某种具体操作来定义的，能够拿到的信息比

2024-07-26 10:38:26 944

原创万字总结LightGBM原理、核心参数以及调优思路（下篇）

这里仅介绍lightgbm.cv区别于lightgbm.train的参数，lightgbm.train相关参数在万字总结LightGBM原理、核心参数以及调优思路（中篇）LightGBM.cv核心参数使用LightGBM建模一般先使用lightgbm.cv搜索结合提前停止搜索出最优参数，然后使用lightgbm.train进行模型重建，最后使用重建后的模型完成后续的模型预测，下面是一个具体的例子：LightGBM模型通用建模流程调参步骤

2024-07-25 09:51:53 899

原创 Flink笔记整理（四）

Flink是一个批流一体的框架，Flink的批处理就是借助其中的窗口功能实现。在批处理统计中，我们可以等待一批数据都到齐后，统一处理。但是在实时处理统计中，我们是来一条就得处理一条，那么我们怎么统计最近一段时间内的数据呢？引入“窗口”。所谓的“窗口”，一般就是划定的一段时间范围，也就是“时间窗”；对在这范围内的数据进行处理，就是所谓的窗口计算。所以窗口和时间往往是分不开的。接下来我们就深入了解一下Flink中的时间语义和窗口的应用。Flink是一种流式计算引擎，主要是来处理无界数据流的，数据源源不断、无穷

2024-07-24 09:34:42 1667

原创万字总结LightGBM原理、核心参数以及调优思路（中篇）

万字总结LightGBM原理、核心参数以及调优思路（上篇）LightGBM sklearn API应用代码LightGBM sklearn API超参数解释与使用方法LGBM的原生API调用和XGB的原生API调用过程非常类似，一个最简单的流程如下：LightGBM 涉及的DataSet APILightGBM 涉及的Training API以及各类参数详解

2024-07-23 09:59:42 614

原创 Flink笔记整理（三）

DataStream API是Flink的核心层API，一个Flink程序，其实本质就是对DataStream的各种转换。创建执行环境设置执行模式触发执行Flink是由事件驱动的，只有等到数据到来，才会触发真正的计算，这也被称为“延迟执行”或“懒执行”。5.2 SourceFlink可以从各种来源获取数据，然后构建DataStream进行转换处理。一般将数据的输入来源称为数据源（data source），而读取数据的算子就是源算子（source operator）。所以，source就是整个处理程

2024-07-22 10:01:15 986

原创【游戏/社交】BFS算法评价用户核心程度or人群扩量（基于SparkGraphX）

在游戏和社交网络领域，评估用户的核心程度或进行人群扩量是提升用户粘性和拓展社交圈的关键。广度优先搜索（BFS）算法以其在图结构中评估节点重要性的能力，为这一目标提供了一种有效的技术手段。本文将详细探讨一种运用BFS算法来评价用户的核心程度，并探索其在人群扩量策略中的应用潜力的方案。在游戏和社交网络行业中，识别并培养核心用户群体对于增强用户粘性和推动社区发展至关重要。为了进一步扩大影响力并吸引更多用户参与，基于这些核心用户进行有效的外扩和评估是必不可少的策略。在这一过程中，我们希望建立一种机制，能够根据用户与

2024-07-19 09:36:43 971

原创万字总结LightGBM原理、核心参数以及调优思路（上篇）

LightGBM 是一种高效的 Gradient Boosting 算法，由 Microsoft Research Asia 团队开发，早期为Microsoft内部处理海量高维数据的专用算法，并于2017年由Guolin Ke, Qi Meng, Thomas Finley等人通过论文形式正式发布。

2024-07-18 09:48:27 1640

原创 Flink笔记整理（二）

客户端、JobManager以及TaskManager在一些应用场景中，对于集群资源分配和占用的方式，可能会有特定的需求。Flink为各种场景提供了不同的部署模式，主要有以下三种：会话模式（Session Mode）、单作业模式（Per-Job Mode）、应用模式（Application Mode）。它们的区别主要在于：集群的生命周期以及资源的分配方式；以及应用的main方法到底在哪里执行——客户端（Client）还是JobManager。独立模式是独立运行的，不依赖任何外部的资源管理平台；当然独立也是

2024-07-17 09:44:48 1093

原创 Flink笔记整理（一）

ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态的计算。什么是有状态的流处理？

2024-07-16 09:31:53 524

原创【游戏数值策划】玩家在奖池中连抽N次，奖品期望（涉及阶乘）该怎么算？（附Spark实现代码）

在游戏数值策划中，抽奖机制的设计往往要求精确计算玩家的奖品期望，这不仅影响玩家的游戏体验，也关系到游戏的平衡性和收益。当奖池中的奖品分布和抽取规则涉及阶乘计算时，如何准确快速地得出玩家连续抽取N次的期望值，便成为了一个值得探讨的问题。本文将详细解析抽奖期望的计算方法，涉及阶乘的数学原理，并提供实际的代码实现，旨在帮助数值策划者和游戏开发者深入理解并应用这一机制。让我们一起揭开抽奖概率背后的数学面纱，为游戏设计注入科学的数值支撑。在游戏行业，抽奖机制是一种常见的玩家互动方式，它不仅增加了游戏的趣味性，也是游戏

2024-07-15 10:57:37 1828

原创万字总结XGBoost原理、核心参数以及调优思路（下篇）

在数据科学领域，XGBoost以其卓越的性能和灵活性，成为了众多机器学习算法中的佼佼者。作为一种梯度提升框架，XGBoost通过构建决策树的集合来最小化一个可微分的损失函数，广泛应用于分类、回归等任务。本文将万字总结XGBoost的深层原理、关键核心参数，以及实用的调优策略。从算法基础到模型部署，我们将深入探讨XGBoost的每一个环节，为读者提供全面的指导和深入的洞见。无论您是希望提升模型性能的数据科学家，还是对XGBoost感兴趣的学习者，本文都将是您理解和掌握这一强大工具的宝贵资源。让我们启程，深入探

2024-07-12 14:17:39 1913

原创万字总结XGBoost原理、核心参数以及调优思路（上篇）

2024-07-11 19:07:01 2702

原创万字总结GBDT原理、核心参数以及调优思路

在机器学习领域，梯度提升决策树（Gradient Boosting Decision Tree, GBDT）以其卓越的预测性能和强大的模型解释能力而广受推崇。GBDT通过迭代地构建决策树，每一步都在前一步的残差上进行优化，从而实现对复杂数据模式的捕捉。本文将万字总结GBDT的工作原理、核心参数，以及如何高效地进行模型调优。从损失函数到树的构建，从正则化项到特征选择，我们将深入探讨GBDT的每一个细节，为读者提供全面的调优思路和实用技巧。梯度提升树（Gradient Boosting Decision Tre

2024-07-09 19:33:20 2746

原创超参数优化方法之贝叶斯优化实现流程及代码

贝叶斯调参过程有着非常严谨的数学理论，借助一些先验的假设，在实际进行调参之前，先假设一些数据、损失函数满足的一些条件。然后通过这种假设来避免去尝试很多点来尽量捕捉到损失函数真实的分布。通过假设在很短时间内找到比较好的最小值或者是次小值。

2024-07-05 14:33:08 2351

原创超参数优化方法之网格优化

超参数优化是机器学习中提升模型性能的关键步骤。在众多优化方法中，网格搜索（Grid Search）以其直观和系统性的特点脱颖而出。作为一种穷举搜索策略，网格搜索通过遍历给定参数网格中的所有可能组合，寻找最优的超参数设置。在所有超参数优化的算法当中，枚举网格搜索是最为基础和经典的方法。在搜索开始之前，需要人工将每个超参数的备选值一一列出，多个不同超参数的不同取值之间排列组合，最终将组成一个参数空间（parameter space）。枚举网格搜索算法会将这个参数空间当中所有的参数组合带入模型进行训练，最终选出泛

2024-07-04 15:38:21 3458

原创万字总结随机森林原理、核心参数以及调优思路

在机器学习的世界里，随机森林（Random Forest, RF）以其强大的预测能力和对数据集的鲁棒性而备受青睐。作为一种集成学习方法，随机森林通过构建多个决策树并将它们的预测结果进行汇总，以提高模型的准确性和泛化能力。然而，要充分发挥随机森林的潜力，合理地调整其核心参数至关重要。本文将深入探讨随机森林的关键参数，包括树的数量、分裂标准、最大深度等，并提供实用的调优思路。

2024-07-01 18:30:25 2477

原创风控图算法之中心性算法（小数据集Python版）

图算法在金融风控领域的应用已经超越了传统的社区发现技术，这些技术曾被主要用于识别和分析欺诈性行为模式，例如黑产团伙。当前，一系列图统计算法，包括介数中心性（Betweenness）、核（Kcore）、以及PageRank等，正逐渐展现出它们在风险评估和管理中的重要作用。这些算法不仅作为辅助判别工具，帮助揭示交易网络中的潜在风险点，而且在识别网络中的核心和影响力节点方面发挥着关键作用。通过精确识别这些核心节点，金融机构能够更有效地监测和防范可能的风险传播路径，从而增强整体的风险控制框架。

2024-06-28 14:48:01 1280

原创风控图算法之社群发现算法（小数据集Python版）

在风险控制领域，图算法扮演着日益重要的角色。（这方面的资料有很多，不再赘述）特别是社群发现算法，它通过揭示数据间的复杂网络结构，帮助我们识别潜在的风险模式和欺诈行为。从社交网络中的群体行为分析到金融市场的异常交易检测，社群发现算法以其独特的视角，为我们提供了理解和预测风险的新方法。本文将简单介绍几种常用的社群发现算法及其实现代码，主要是针对小数据集的Python版本，后续将更新针对大数据的基于SparkGraphX的实现方案。

2024-06-27 15:07:24 1835

ASIANPAINT公司股票交易数据

ASIANPAINT公司股票交易数据数据字段为： Date Symbol Series Prev Close Open High Low Last Close VWAP Volume Turnover Trades Deliverable Volume Deliverble

2024-06-20

反洗钱数据集（SAML-D数据集）

洗钱仍然是一个重大的全球性问题，推动了对改进交易监控方法的需求。目前的反洗钱（AML）程序效率低下，并且访问数据很困难/受到法律和隐私问题的限制。此外，现有数据往往缺乏多样性和真实的标签。本研究引入了一种新颖的反洗钱交易生成器，创建了具有增强特征和类型的SAML-D数据集，旨在帮助研究人员评估其模型并开发更先进的监控方法。该数据集包含 12 个特征和 28 个类型（分为 11 个正常和 17 个可疑）。这些是根据现有数据集、学术文献和对反洗钱专家的采访选择的。该数据集包含 9,504,852 笔交易，其中 0.1039% 为可疑交易。它还包括 15 个图形网络结构，以表示这些类型中的事务流。这些结构虽然有时在类型学之间共享，但在参数上差异很大，以增加复杂性并挑战检测工作。有关这些类型的更多详细信息，请参阅上面的论文。与论文相比，该数据集是更新版本。 SAML-D数据集特点： • 时间和日期：对于跟踪交易年表至关重要。 • 汇款人和收款人账户详细信息：帮助发现行为模式和复杂的银行联系。 • 金额：表示交易价值以识别可疑活动。 • 付款方式：包括信用卡、借记

2024-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ASIANPAINT公司股票交易数据

反洗钱数据集（SAML-D数据集）

不同月份用户手机账单数据，包括短信费用、上网费用、折扣金额等等

JPX东交所股价数据集

贵州茅台销售额时序数据（按月）

金融风控，信贷评分卡讲解

全国人口流动（市级）可用于社区发现构建网络等

空空如也