自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 RDD?JD-mj

Pandas是Python中用于数据分析和操作的开源库,提供了丰富的数据结构和数据处理功能,包括数据读写、数据清洗、数据转换、数据分组、数据透视等功能。- 在执行检查点操作时,系统会将当前状态保存到稳定存储介质上,通常会保证写操作是对齐的,确保数据的完整性和一致性。- 常见的回归模型包括线性回归、多项式回归、岭回归、Lasso回归、逻辑回归、决策树回归、随机森林回归等。任务管理器的内存消耗主要取决。- 对齐的检查点意味着保存的数据是按照内存对齐的方式进行存储的,这样在恢复时可能更有效和快速。

2024-04-12 20:04:51 281

原创 jd的面试啊啊啊 啊啊啊 啊啊啊

group by 和reduce by 的区别?checkpoint的对齐和非对齐的机制区别?kafka如何实现exctaly once?excatly once如何实现?kafka如何保证数据的一致性?checkpoin如何对齐?boolean过滤器是什么?OLAP性能遇到什么问题?状态端大内存如何解决?有几种shullfe?阿里的OLAP是什么?FLINK的内存消耗?shullfe机制?hive的流式优化?HIVE的文件格式?

2024-04-11 22:35:54 110

原创 gbdt,xgb

XGBoost 提供了多种损失函数的选择,包括回归问题的平方损失函数和分类问题的对数损失函数等,用户可以根据具体的任务需求选择合适的损失函数。- 传统 GBDT 通常采用贪心算法来选择特征的分裂点,但它只考虑了一阶导数,而 XGBoost 还考虑了二阶导数,从而能够更好地逼近目标函数。- XGBoost 使用了一种贪心算法来选择特征的分裂点,通过枚举所有可能的分裂点并选择最优的分裂点,从而得到更精确的分裂。- 传统 GBDT 主要使用平方损失函数和指数损失函数,对于分类问题,一般使用指数损失函数。

2024-04-11 16:30:24 225

原创 内存故障检测

该比赛是PAKDD2021 第二届阿里云智能运维算法大赛的延伸赛,这里直接利用该比赛的baseline。# 原始baseline使用的是SVC,可以多换几个分类器提交。# 采样比例减少一点,尽量多出一些预测,降低精度,提高召回率。# 由于预测pti对分数影响不大,先直接末尾增加pti为1。# 计算每个agg_time区间的和。# 降低时间精度 向上取整。# 示例仅使用了kernel数据。# 设置聚合时间粒度。

2024-04-10 18:47:12 775 1

原创 data----

", "?", ":", "!"]passdataset[0]

2024-04-09 18:23:09 261 1

原创 model

else:return {

2024-04-09 18:03:35 355 1

原创 partial

LLM

2024-04-09 16:58:23 1530 1

原创 学习笔记4.9

有并行计算编程经验,熟悉DeepSpeed,Megatron、Ray等框架者优先;5.2 有嵌入式设备下基于CPU或NPU的深度学习模型转化,部属,压缩等经验者优先;你可以在OpenAI的GitHub仓库中找到GPT-2的源代码和预训练模型,地址为:https://github.com/openai/gpt-2。有并行计算编程经验,熟悉DeepSpeed,Megatron、Ray等框架者优先;大模型推理,提示词,提示模版。模型效果评估,指标。Megatron,BERT,GPT,T5.指令精调。

2024-04-09 14:53:40 255 1

原创 数据结构0408

定义张量需要什么?信息?ChatGPT在数学和物理学中,张量是一种多维数组或多维矩阵,它们在向量、标量和其他张量之间的线性关系中扮演着重要角色。定义张量通常需要以下几个方面的信息:阶数(秩):张量的阶数表示张量的维度或者说是张量的索引的个数。比如,0阶张量是标量(scalar),1阶张量是向量(vector),2阶张量是矩阵(matrix),以此类推。维度:对于每个索引,张量的维度表示该索引可以取的值的数量。比如,一个二阶张量可能有形状为 (m, n) 的矩阵,其中 m 表示行数,n 表示列数。

2024-04-08 17:05:05 149

原创 学习笔记0408

在语言模型中,全连接层通常用于将模型的最后一层映射到输出词汇表的概率分布。在上面提到的例子中,是 TensorFlow 数据集 API 中的一个方法,用于从给定的张量(tensor)中创建一个数据集。模型简单易用,适用于构建简单的线性堆叠模型,其中每一层都只有一个输入张量和一个输出张量。函数会将输入的张量或列表沿着第一维切片,从而创建一个新的数据集,其中每个元素都是原始张量或列表中的一个切片。text = "这是一个简单的例子,用于演示语言模型的基本实现。层用于模型的输出层,以预测下一个词的概率分布。

2024-04-08 17:00:46 1448

原创 【无标题】

X = pd.DataFrame(np.vstack(np.random.rand(100, 10))).values # 输入特征。y = pd.DataFrame(np.vstack(np.random.rand(100, 10))).values # 目标变量。#此处为了后续输出混淆矩阵时,用原始数据输出。

2023-09-12 09:39:39 27

原创 阿里内推,扫投递

2023-08-24 23:16:52 28 1

原创 多维度聚合

SQL多维护聚合

2023-08-03 21:36:00 45

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除