- 博客(335)
- 资源 (3)
- 收藏
- 关注
原创 华为OD算法开发指导-数据结构-图
定义二维数组Array存储图结构的节点之间的权值,例如,n个节点的图结构,矩阵大小为n*n,二维数组大小为n*n,二维数组Array[1][2]=3表示节点1与节点2之间的权值为3。给定由n个节点组成的图以及节点间的边对应的权,图上两节点间的距离定义为两节点间简单路径上所有边权的和,查找图上任意两节点间的最优距离。使用矩阵的数据结构存储图结构,矩阵中节点之间有边的元素值为1,无边的元素值为0。遍历图结构对应的矩阵关系的二维数组,以邻近节点汇聚的方式计算两节点间的最优距离。
2026-03-14 12:38:32
28
原创 算法开发指导-数据结构-Tree
定义二维数组存储树形结构的节点之间的权值,第一维数组的索引值表示树形结构的序号,第二维数组索引值表示树形结构的序号,第二维数组的元素值表示节点之间的权值,n个节点的树形结构,矩阵大小为n*n,二维数组大小为n*n。给定由n个节点组成的树以及节点间的边对应的权,树上两节点间的距离定义为两节点间简单路径上所有边权的异或和,计算树上任意两节点路径的最大距离,以及给定一个正整数k,计算树上节点路径距离大于k的节点路径总数。遍历树形结构对应的矩阵关系的二维数组,计算所有节点路径的距离,得出节点路径距离的最大值。
2026-02-21 13:35:28
196
原创 华为OD算法开发指导-快速检索
某设备需要记录每分钟检测到的指标值,为了节约存储空间,将连续相同指标值的记录合并,例如,记录(202411231000,2,202411231001,2)合成(202411231000,202411231001,2)。查询时,根据输入的时间范围进行查询,需要返回时间范围内记录的每分钟的指标值,如果某个时间点没有记录值,则此条记录忽略不返回。将查询的时间范围的起始时间点与结束时间点转换成毫秒的整数,在一维数组中检索查询的时间范围的记录,将毫秒的时间点转换成标准分钟时间点,返回分钟时间点以及对应的指标值。
2026-02-15 17:03:39
209
原创 Apache Spark算法开发指导-K-means
K-means 是一种广泛使用的无监督学习聚类算法,其核心目标是将数据集划分为 K 个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的差异尽可能大。该算法通过迭代优化簇的中心(质心),最小化数据点与其所属簇质心之间的距离平方和,从而实现紧凑且分离度高的聚类效果。
2026-02-15 10:26:11
295
原创 Apache Spark算法开发指导-Gradient-boosted tree regression
梯度提升树回归(Gradient-Boosted Tree Regression,简称GBTR)是一种强大的机器学习算法,广泛用于回归任务,通过集成多个决策树逐步优化预测性能。其核心思想是利用前向分步算法,在每一轮迭代中训练一棵新的决策树来拟合当前模型的真实值与预测值之差,从而不断减少整体损失函数。
2026-02-14 07:21:36
270
原创 华为OD算法开发指导-二级索引-Read and Write Path Different Version
],第一维数组的长度为10,一级索引指向二级索引的第一维数组,第二维数组的索引位的值表示被索引的数据元素的值,第二维数组的长度为10000,第二维数组的元素表示被索引的元素集合,第三维数组的长度为10000,在第三维数组中,第一位表示相同值的个数,从第二位起每六个值表示集群的编号、数据块的编号以及该数据块对应的索引位,前三个值表示主写数据,后三个值表示备份读数据。],第一维数组的长度为100,表示100个数据块,第二维数组的长度为10000,第一位元素表示该数据块已存储的数据元素的总数。
2026-02-13 12:01:37
272
原创 Apache Spark算法开发指导-Random forest regression
随机森林回归(Random Forest Regression)是一种集成机器学习的回归算法,通过构建多个决策树并综合其预测结果,以提高模型的准确性与稳定性。它在处理非线性关系、高维数据和异常值方面表现优异,广泛应用于房价预测、股票价格估计、销售额建模等连续值预测任务中。
2026-02-13 10:02:04
292
1
原创 华为OD算法开发指导-二级索引-High Availability Version
],第一维数组的长度为10,一级索引指向二级索引的第一维数组,第二维数组的索引位的值表示被索引的数据元素的值,第二维数组的长度为10000,第二维数组的元素表示被索引的元素集合,第三维数组的长度为10000,在第三维数组中,第一位表示相同值的个数,从第二位起每六个值表示集群的编号、数据块的编号以及该数据块对应的索引位,前三个值表示主数据,后三个值表示备份数据。],第一维数组的长度为100,表示100个数据块,第二维数组的长度为10000,第一位元素表示该数据块已存储的数据元素的总数。
2026-02-11 12:33:05
415
原创 Apache Spark算法开发指导-Decision tree regression
决策树回归(Decision Tree Regression)是一种树形结构的监督机器学习算法,用于预测连续型目标变量。它通过递归地将特征空间划分为多个区域,在每个叶节点输出该区域内样本目标值的平均数,从而实现对数值的预测。
2026-02-11 08:15:10
224
原创 Apache Spark算法开发指导-Generalized linear regression
广义线性回归(Generalized Linear Regression)是广义线性模型(Generalized Linear Models, GLMs)的一种实现形式,它扩展了标准线性回归模型,能够处理更广泛的响应变量类型,而不仅限于连续的正态分布数据。其核心思想是通过一个链接函数(link function),将响应变量的均值与预测变量的线性组合联系起来,同时允许响应变量服从指数分布族中的任意一种分布,如正态分布、二项分布、泊松分布等。
2026-02-10 11:36:14
165
原创 Apache Spark算法开发指导-Linear regression
线性回归(Linear Regression)是一种用于建模自变量(特征)与因变量(目标)之间线性关系的统计方法,广泛应用于预测连续值任务,如房价预测、销售趋势分析等。其核心思想是通过最小二乘法拟合一条直线(或超平面),使得预测值与实际值之间的误差平方和最小。
2026-02-09 11:39:49
310
1
原创 Apache Spark算法开发指导-Factorization machines classifier
Factorization Machines(因子分解机,FM)分类器是一种专门用于处理高维稀疏数据的机器学习模型,尤其适用于特征交互复杂的场景,如推荐系统、广告点击率(CTR)预测等,其核心优势在于能够在线性时间内捕捉特征间的二阶交互作用。
2026-02-08 09:16:08
266
原创 Apache Spark算法开发指导-Naive Bayes
朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单概率分类算法,其核心思想是通过先验概率和特征条件概率来计算后验概率实现分类,尽管它假设所有特征之间相互独立——这一“朴素”假设在现实中往往不成立,但在许多实际场景中,如文本分类、情感分析、关键字识别以及个性化推荐系统中,该算法仍表现出色。
2026-02-07 08:52:46
363
原创 Apache Spark算法开发指导-One-vs-Rest classifier
One-vs-Rest 分类器(也称为 One-vs-All)是一种将二分类算法扩展到多分类任务的常用策略,其核心思想是为每个类别训练一个二分类模型,例如,假设有 n 个类别,One-vs-Rest 会训练 n个二分类器,每个分类器专注于判断样本是否属于某一特定类别。在预测阶段,系统会运行所有分类器,并选择输出得分最高或概率最大的那个分类器所对应的类别作为最终预测结果。
2026-02-06 11:23:14
249
原创 Apache Spark算法开发指导-Linear Support Vector Machine
Linear Support Vector Machine (SVM) 是一种用于分类和回归分析的监督学习模型,其核心目标是在特征空间中找到一个最优的线性超平面,以最大化不同类别之间的间隔,因此也被称为最大间隔分类器。它特别适用于线性可分或近似线性可分的数据场景。
2026-02-05 09:00:08
275
原创 Apache Spark算法开发指导-Multilayer perceptron classifier
多层感知机分类器(Multilayer Perceptron Classifier, MLPClassifier)是一种基于神经网络的监督学习算法,广泛用于分类任务。它由一个输入层、一个或多个隐藏层和一个输出层组成,通过反向传播算法优化模型参数。
2026-02-04 11:30:59
204
原创 Apache Spark算法开发指导-Gradient-boosted tree classifier
Gradient-boosted tree classifier(梯度提升树分类器)是一种强大的机器学习模型,广泛用于分类任务,通过迭代地训练决策树来提升准确度,从而提升整体预测性能。它属于集成机器学习方法,核心思想是将多个决策树组合成一个强学习器,每一轮训练都聚焦于前一轮未能很好拟合的样本。
2026-02-03 08:52:07
282
原创 华为OD算法开发指导-二级索引-集群版
],第一维数组的长度为10,一级索引指向二级索引的第一维数组,第二维数组的索引位的值表示被索引的数据元素的值,第二维数组的长度为10000,第二维数组的元素表示被索引的元素集合,第三维数组的长度为10000,在第三维数组中,第一位表示相同值的个数,从第二位起每三个值表示集群的编号、数据块的编号以及该数据块对应的索引位。],第一维数组的长度为10,将整数的索引范围的区间数划分为10,第二位数组元素[0,1000,1],0表示整数的区间的最小值,1000表示整数的区间的最大值,1表示二级索引的编号。
2026-02-02 01:02:05
319
原创 Apache Spark算法开发指导-Random forest classifier
Random Forest Classifier(随机森林分类器)是一种广泛使用的集成机器学习方法,特别适用于分类任务。它通过构建多个决策树并聚合它们的预测结果,显著提升了模型的准确性和稳定性,同时有效缓解了单棵决策树容易过拟合的问题。
2026-02-01 08:05:32
300
原创 Apache Spark算法开发指导-Decision tree classifier
决策树是一种树型结构,其中每个内部节结点表示在一个属性上的测试,每一个分支代表一个测试输出,每个叶结点代表一种类别,主要用于预测分析 ,做出决策。
2026-01-31 18:03:20
302
原创 Apache Spark算法开发指导-Logistic Regression
逻辑回归(Logistic Regression)是一种强大的数据统计分析方法,专门用于处理分类问题,例如,二分类问题,它的核心思想是通过一个逻辑函数(Sigmoid函数),将线性回归的输出映射到0和1之间,从而预测样本属于某一类的概率。
2026-01-30 12:16:06
239
原创 Apache Spark算法开发指导-Locality Sensitive Hashing
Locality Sensitive Hashing哈希算法与传统哈希算法的区别是,传统哈希算法的作用是将数据均匀地分散到不同的数据桶,以减少数据的冲突,而Locality Sensitive Hashing哈希算法的作用是将相似的数据集中到相同的数据桶,通过计算最近距离的方式快速检索相似的数据。
2026-01-28 22:30:01
131
原创 Apache Spark算法开发指导-特征选择
利用卡方检验来评估分类特征与目标变量之间的相关性,从特征集合中选择一批最具预测能力的特征值作为新的特征集合。按照指定的特征值的列索引或者特征值的列名称,从特征集合中选择一批特征值作为新的特征集合。使用方差以及指定界限值的方式,从特征集合中选择一批最优的特征值作为新的特征集合。使用R语言的计算公式处理特征集合中的特征值以及标签值。
2026-01-26 17:18:08
92
原创 华为OD算法开发指导-二级索引
查询一定范围的数据元素列表,按照待查询数据元素的区间范围确定一级索引指向二级索引的位置,从二级索引中获取数据块的索引列表,从待查询的区间范围的最小元素起,获取待查询的区间范围在数据块中的已索引的元素的索引位,按照索引位的指向,在数据块中检索待查询的区间范围的数据元素列表。查询数据元素是否存在,按照待查询数据元素的区间范围确定一级索引指向二级索引的位置,从二级索引中获取数据块的索引列表,在数据块的索引列表中,获取待查询数据元素的在数据块中的索引位,按照索引位的指向,在数据块中确定待查询数据元素是否存在。
2026-01-23 18:16:35
324
原创 腾讯云智能体开发平台 | DeepSeek 知识库问答应用创建
腾讯云智能体开发平台(Tencent Cloud Agent Development Platform,Tencent Cloud ADP),是基于大模型的智能体构建平台。提供LLM+RAG、Workflow、Multi-agent等多种智能体开发框架,助力企业能够结合专属数据,更高效地搭建稳定、安全、符合业务需求的智能体。
2026-01-13 08:18:04
195
原创 腾讯云智能体开发平台 | DeepSeek 联网应用创建
腾讯云智能体开发平台(Tencent Cloud Agent Development Platform,Tencent Cloud ADP),是基于大模型的智能体构建平台。提供LLM+RAG、Workflow、Multi-agent等多种智能体开发框架,助力企业能够结合专属数据,更高效地搭建稳定、安全、符合业务需求的智能体。
2026-01-11 09:02:08
445
原创 华为云智能体平台 | 搭建智能问答助手
本文主要描述如何在华为云智能体平台Versatile中搭建智能问答助手,在企业客服的应用场景中,当用户向智能问答助手咨询业务问题时,智能体应用会给出相应的回答。
2026-01-10 09:31:30
261
原创 华为OD算法开发指导-任务规划
使用三维数组的数据结构保存M组任务的数据,例如,[[[3,2],[2,3]],[[6,6]]],其中 ,第二维数组的元素[[3,2],[2,3]]表示一组任务的详细数据,第三维数组的元素表示每台机器的配置阶段STEP1与运行阶段STEP2的执行工作任务的时间数据,以此类推。第一行输入M,表示M组任务数据,第二行开始输入每组任务的详细数据,每组任务的第一行输入N,表示N台机器,每组任务的第二行输入机器的配置阶段STEP1与运行阶段STEP2的执行工作任务的时间数据。每行输出M组任务执行工作的最小总时间。
2025-11-22 12:08:24
387
原创 算法开发指导-栈操作
给定一个正整数数组和一个初始为空的栈,现在按照下标从小到大顺序,将数组中的元素依次入栈:若当前元素的值在栈中任意位置已存在,从栈顶开始依次弹出元素,直到第一次遇到值相同的数并将其也弹出为止;若不存在,则直接压入栈中。定义整数数组,使用数组的索引位置实现判断栈中的元素是否已经存在,例如,[0,1,0,1,0,0],数组的索引位置1的值为1,则表示值为1的元素已经存在,数组的索引位置3的值为1,则表示值为3的元素已经存在,以此类推。使用整数数组实现栈的存储,提供索引记录栈顶的位置,提供入栈操作以及出栈操作。
2025-11-17 18:13:17
231
原创 算法开发指导-排序与统计
第一行输入n,表示输入n行数据记录,第二行开始输入n行varchar类型的字段column的数据记录。给定某数据库中varchar类型的字段column的n行数据记录,统计分析输出不同的数据记录的总数。对输入的字符串集合执行排序操作,对已排序的字符串集合执行去重操作,得出不同字符串的总数。统计分析输出不同的数据记录的总数。
2025-11-11 13:23:15
169
原创 华为OD算法开发指导-简易内存池
请求释放内存块的业务逻辑,遍历内存索引的二维数组,判断是否存在对应起始地址的内存块,有则释放对应的内存块,在内存索引的二维数组中,删除对应的内存块,更新内存索引的二维数组,返回已释放的内存块的起始地址,没有对应的内存块,则返回error。请求分配内存块的业务逻辑,遍历内存索引的二维数组,判断是否有剩余的内存空间分配,有则分配内存块,在内存索引的二维数组中,插入新分配的索引,更新内存索引的二维数组,返回已分配的内存块的起始地址,没有内存块分配,则返回error。分配的内存块必须是连续的,并优先从低地址分配。
2025-11-07 18:06:05
496
原创 Apache Spark算法开发指导-特征转换RobustScaler
数据标准化是使用统计学的手段对数据样本执行一定范围的缩放,使数据元素保持在一定的范围之内,标准化的数据集合在数据分析以及图表绘制中,更加容易地体现出数据的固有特性,Apache Spark支持的数据标准化以及数据缩放的方法:
2025-11-01 18:38:30
309
原创 算法开发指导-任意AB正整数相加
以字符串类型保存AB,将AB转化为字符数组,逐位获取AB的字符,将字符转变为整数再相加,以字符串类型将逐位相加的结果,保存在字符串buffer中,最后返回字符串buffer。基本整数int类型的长度是32,长整数long类型的长度是64,当整数的长度大于long类型的长度,则需要使用字符类型,对AB整数逐位相加,以字符串的类型输出。以字符串的类型输入任意长度的AB正整数。以字符串的类型输出AB整数相加的结果。
2025-10-31 08:12:48
181
原创 Apache Spark算法开发指导-特征转换-StandardScaler
算法StandardScaler是用于处理向量数据集合的数据元素的标准缩放,减少数据元素之间的差异,更加容易地执行数据分析,是统计学的数据分析领域常用的标准化方法。
2025-10-29 18:23:09
376
原创 华为OD算法开发指导-比赛的冠亚季军
存在N个运动员,他们的id编号为0到N-1,他们的实力值用N个正整数表示,其中,N的范围在[3,10000],比赛的规则为,每轮相邻的运动员之间举行比赛,例如,id编号为0的运动员与id编号为1的运动员之间举行比赛,id编号为2的运动员与id编号为3的运动员之间举行比赛,以此类推,当N为奇数时,id编号为N-1的运动员直接晋级到下一轮比赛,运动员的实力值大者为胜,当运动员的实力值相等,则id编号小者为胜,直到最后一轮决赛,决出前三名的冠亚季军。输入一行N个正整数,表示N个远动员的实力值。
2025-10-26 20:29:20
396
原创 Apache Spark算法开发指导-特征转换Normalizer
Normalizer算法用于处理数据标准化以及规范化,缩小数据元素之间的范围差距,让数据元素保持在[-1,1]范围内,更加易于执行数据分析,例如,给定一个向量数据集合以及指定一个参数p,输出数据标准化的向量数据集合。
2025-10-24 17:18:09
353
原创 Apache Spark算法开发指导-特征转换Interaction
Interaction算法实现集合之间的向量积,例如,给定两个维度是n的向量集合,使用向量积计算输出一个维度是n*n的向量集合。
2025-10-22 12:06:05
330
原创 Apache Spark算法开发指导-特征转换VectorIndexer
1.输入向量数据集合(集合中每列的数据类型是向量Vector)以及最大特征分类数量maxCategories。2.统计不同特征出现的数量,数量小于或者等于maxCategories的特征归类为分类特征。3.从最小索引值0开始,对分类特征执行索引操作,将原始的特征值转换为索引。
2025-10-18 17:32:38
350
原创 华为云Stack | 专业服务
数字化成功的关键是以云原生的思维践行云原生,全数字化、全云化、AI驱动,一切皆服务。华为云将持续创新,携手客户、合作伙伴和开发者,致力于让云无处不在,让智能无所不及,共建智能世界云底座。华为云Stack是部署在政企客户本地数据中心的云基础设施,通过持续创新,打造安全、可靠、高效的混合云,以用户视角一朵云的能力,助力客户从业务上云迈向深度用云,释放数字生产力。全面的云应用转型设计、云服务技术支持、开发支持服务帮助客户深度用云,加快业务创新。提供针对性的运营、运维体系设计及辅助运营服务,提升客户云效能。
2025-10-16 07:20:17
390
eclipse-scala
2017-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅