阿里算法大佬-CSDN博客

原创 RDD？JD-mj

Pandas是Python中用于数据分析和操作的开源库，提供了丰富的数据结构和数据处理功能，包括数据读写、数据清洗、数据转换、数据分组、数据透视等功能。- 在执行检查点操作时，系统会将当前状态保存到稳定存储介质上，通常会保证写操作是对齐的，确保数据的完整性和一致性。- 常见的回归模型包括线性回归、多项式回归、岭回归、Lasso回归、逻辑回归、决策树回归、随机森林回归等。任务管理器的内存消耗主要取决。- 对齐的检查点意味着保存的数据是按照内存对齐的方式进行存储的，这样在恢复时可能更有效和快速。

2024-04-12 20:04:51 281

原创 jd的面试啊啊啊啊啊啊啊啊啊

group by 和reduce by 的区别？checkpoint的对齐和非对齐的机制区别？kafka如何实现exctaly once？excatly once如何实现？kafka如何保证数据的一致性？checkpoin如何对齐?boolean过滤器是什么？OLAP性能遇到什么问题？状态端大内存如何解决？有几种shullfe？阿里的OLAP是什么？FLINK的内存消耗？shullfe机制？hive的流式优化？HIVE的文件格式？

2024-04-11 22:35:54 110

原创 gbdt,xgb

XGBoost 提供了多种损失函数的选择，包括回归问题的平方损失函数和分类问题的对数损失函数等，用户可以根据具体的任务需求选择合适的损失函数。- 传统 GBDT 通常采用贪心算法来选择特征的分裂点，但它只考虑了一阶导数，而 XGBoost 还考虑了二阶导数，从而能够更好地逼近目标函数。- XGBoost 使用了一种贪心算法来选择特征的分裂点，通过枚举所有可能的分裂点并选择最优的分裂点，从而得到更精确的分裂。- 传统 GBDT 主要使用平方损失函数和指数损失函数，对于分类问题，一般使用指数损失函数。

2024-04-11 16:30:24 225

原创内存故障检测

该比赛是PAKDD2021 第二届阿里云智能运维算法大赛的延伸赛，这里直接利用该比赛的baseline。# 原始baseline使用的是SVC，可以多换几个分类器提交。# 采样比例减少一点，尽量多出一些预测，降低精度，提高召回率。# 由于预测pti对分数影响不大，先直接末尾增加pti为1。# 计算每个agg_time区间的和。# 降低时间精度向上取整。# 示例仅使用了kernel数据。# 设置聚合时间粒度。

2024-04-10 18:47:12 775 1

原创 data----

", "?", ":", "!"]passdataset[0]

2024-04-09 18:23:09 261 1

原创 model

else:return {

2024-04-09 18:03:35 355 1

原创 partial

LLM

2024-04-09 16:58:23 1530 1

原创学习笔记4.9

有并行计算编程经验，熟悉DeepSpeed，Megatron、Ray等框架者优先；5.2 有嵌入式设备下基于CPU或NPU的深度学习模型转化，部属，压缩等经验者优先；你可以在OpenAI的GitHub仓库中找到GPT-2的源代码和预训练模型，地址为：https://github.com/openai/gpt-2。有并行计算编程经验，熟悉DeepSpeed，Megatron、Ray等框架者优先；大模型推理，提示词，提示模版。模型效果评估，指标。Megatron，BERT，GPT，T5.指令精调。

2024-04-09 14:53:40 255 1

原创数据结构0408

定义张量需要什么？信息？ChatGPT在数学和物理学中，张量是一种多维数组或多维矩阵，它们在向量、标量和其他张量之间的线性关系中扮演着重要角色。定义张量通常需要以下几个方面的信息：阶数（秩）：张量的阶数表示张量的维度或者说是张量的索引的个数。比如，0阶张量是标量（scalar），1阶张量是向量（vector），2阶张量是矩阵（matrix），以此类推。维度：对于每个索引，张量的维度表示该索引可以取的值的数量。比如，一个二阶张量可能有形状为 (m, n) 的矩阵，其中 m 表示行数，n 表示列数。

2024-04-08 17:05:05 149

原创学习笔记0408

在语言模型中，全连接层通常用于将模型的最后一层映射到输出词汇表的概率分布。在上面提到的例子中，是 TensorFlow 数据集 API 中的一个方法，用于从给定的张量（tensor）中创建一个数据集。模型简单易用，适用于构建简单的线性堆叠模型，其中每一层都只有一个输入张量和一个输出张量。函数会将输入的张量或列表沿着第一维切片，从而创建一个新的数据集，其中每个元素都是原始张量或列表中的一个切片。text = "这是一个简单的例子，用于演示语言模型的基本实现。层用于模型的输出层，以预测下一个词的概率分布。

2024-04-08 17:00:46 1448

m0_61478099的博客