- 博客(13)
- 收藏
- 关注
原创 RDD?JD-mj
Pandas是Python中用于数据分析和操作的开源库,提供了丰富的数据结构和数据处理功能,包括数据读写、数据清洗、数据转换、数据分组、数据透视等功能。- 在执行检查点操作时,系统会将当前状态保存到稳定存储介质上,通常会保证写操作是对齐的,确保数据的完整性和一致性。- 常见的回归模型包括线性回归、多项式回归、岭回归、Lasso回归、逻辑回归、决策树回归、随机森林回归等。任务管理器的内存消耗主要取决。- 对齐的检查点意味着保存的数据是按照内存对齐的方式进行存储的,这样在恢复时可能更有效和快速。
2024-04-12 20:04:51 281
原创 jd的面试啊啊啊 啊啊啊 啊啊啊
group by 和reduce by 的区别?checkpoint的对齐和非对齐的机制区别?kafka如何实现exctaly once?excatly once如何实现?kafka如何保证数据的一致性?checkpoin如何对齐?boolean过滤器是什么?OLAP性能遇到什么问题?状态端大内存如何解决?有几种shullfe?阿里的OLAP是什么?FLINK的内存消耗?shullfe机制?hive的流式优化?HIVE的文件格式?
2024-04-11 22:35:54 110
原创 gbdt,xgb
XGBoost 提供了多种损失函数的选择,包括回归问题的平方损失函数和分类问题的对数损失函数等,用户可以根据具体的任务需求选择合适的损失函数。- 传统 GBDT 通常采用贪心算法来选择特征的分裂点,但它只考虑了一阶导数,而 XGBoost 还考虑了二阶导数,从而能够更好地逼近目标函数。- XGBoost 使用了一种贪心算法来选择特征的分裂点,通过枚举所有可能的分裂点并选择最优的分裂点,从而得到更精确的分裂。- 传统 GBDT 主要使用平方损失函数和指数损失函数,对于分类问题,一般使用指数损失函数。
2024-04-11 16:30:24 225
原创 内存故障检测
该比赛是PAKDD2021 第二届阿里云智能运维算法大赛的延伸赛,这里直接利用该比赛的baseline。# 原始baseline使用的是SVC,可以多换几个分类器提交。# 采样比例减少一点,尽量多出一些预测,降低精度,提高召回率。# 由于预测pti对分数影响不大,先直接末尾增加pti为1。# 计算每个agg_time区间的和。# 降低时间精度 向上取整。# 示例仅使用了kernel数据。# 设置聚合时间粒度。
2024-04-10 18:47:12 775 1
原创 学习笔记4.9
有并行计算编程经验,熟悉DeepSpeed,Megatron、Ray等框架者优先;5.2 有嵌入式设备下基于CPU或NPU的深度学习模型转化,部属,压缩等经验者优先;你可以在OpenAI的GitHub仓库中找到GPT-2的源代码和预训练模型,地址为:https://github.com/openai/gpt-2。有并行计算编程经验,熟悉DeepSpeed,Megatron、Ray等框架者优先;大模型推理,提示词,提示模版。模型效果评估,指标。Megatron,BERT,GPT,T5.指令精调。
2024-04-09 14:53:40 255 1
原创 数据结构0408
定义张量需要什么?信息?ChatGPT在数学和物理学中,张量是一种多维数组或多维矩阵,它们在向量、标量和其他张量之间的线性关系中扮演着重要角色。定义张量通常需要以下几个方面的信息:阶数(秩):张量的阶数表示张量的维度或者说是张量的索引的个数。比如,0阶张量是标量(scalar),1阶张量是向量(vector),2阶张量是矩阵(matrix),以此类推。维度:对于每个索引,张量的维度表示该索引可以取的值的数量。比如,一个二阶张量可能有形状为 (m, n) 的矩阵,其中 m 表示行数,n 表示列数。
2024-04-08 17:05:05 149
原创 学习笔记0408
在语言模型中,全连接层通常用于将模型的最后一层映射到输出词汇表的概率分布。在上面提到的例子中,是 TensorFlow 数据集 API 中的一个方法,用于从给定的张量(tensor)中创建一个数据集。模型简单易用,适用于构建简单的线性堆叠模型,其中每一层都只有一个输入张量和一个输出张量。函数会将输入的张量或列表沿着第一维切片,从而创建一个新的数据集,其中每个元素都是原始张量或列表中的一个切片。text = "这是一个简单的例子,用于演示语言模型的基本实现。层用于模型的输出层,以预测下一个词的概率分布。
2024-04-08 17:00:46 1448
原创 【无标题】
X = pd.DataFrame(np.vstack(np.random.rand(100, 10))).values # 输入特征。y = pd.DataFrame(np.vstack(np.random.rand(100, 10))).values # 目标变量。#此处为了后续输出混淆矩阵时,用原始数据输出。
2023-09-12 09:39:39 27
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人