- 博客(1486)
- 资源 (7)
- 收藏
- 关注
原创 huggingface 笔记:peft
将基础模型和 peft_config 与 get_peft_model() 函数一起包装以创建 PeftModel。模型训练完成后,可以使用 save_pretrained 函数将模型保存到目录中。之后就可以train了。
2024-06-25 12:58:25 701
原创 论文笔记: GETNext:Trajectory Flow Map Enhanced Transformer for Next
令表示用户集合,表示 POI(如特定餐馆、酒店等)集合,表示时间戳集合其中 M,N,K 均为正整数。每个 POI p∈P 表示为一个四元组 p=〈lat,lon,cat,freq〉,分别表示纬度、经度、类别和签到频率。cat 是从固定的 POI 类别列表中选取的(例如“火车站”、“酒吧”)。签到是一个三元组,表示用户u 在时间戳t 访问 POI p。由用户u∈U 创建的所有签到活动形成一个签到序列,其中是第 i 个签到记录。将所有用户的签到序列表示为。
2024-06-25 09:58:01 359
原创 accelerate 笔记:进程管理
如果在一个由多台机器组成的集群上运行训练作业,并希望每台机器都独立打印它们的日志信息,可以使用。: 如果在多台机器上运行训练作业,并且只希望最终的模型上传操作在所有进程中执行一次,可以使用。
2024-06-24 20:21:18 309
原创 pytorch 笔记:应用:根据内积结果评估模型预测准确性
具体来说,有以下数据:张量a(大小为 40x10),包含 40 个位置的embedding(每个位置的embedding维度为10)。张量b(大小为 4x10),包含一个batch中4个预测位置的embedding。张量c(大小为 4x1),包含四个ground-truth位置的索引。任务是对于b中的每个位置,计算它与a中所有40个位置的embedding的内积,然后选取内积值最高的10个位置。接下来,检查c中的ground-truth位置索引是否在这10个最高内积位置中。
2024-06-24 14:48:53 306
原创 论文笔记:Spatial-Temporal Interval Aware Sequential POI Recommendation
ICDE 2022。
2024-06-23 16:07:22 534
原创 pytorch笔记:清理GPU内存
用top/htop找到相应程序的PID,再使用 kill 结束该进程。可以清理任何先前运行的程序可能遗留的未释放内存。
2024-06-19 14:51:21 952
原创 论文略读 Let’s Speak Trajectories: A Vision To Use NLP Models For Trajectory Analysis Tasks
将轨迹任务和NLP任务对齐。
2024-06-17 15:39:12 157
原创 pytorch 笔记:torch.dist
时,这表示使用曼哈顿距离(或 L1 范数)。(无穷大)可以用来计算切比雪夫距离。计算距离时使用的范数的阶数。,这表示使用欧几里得距离。
2024-06-14 16:28:49 322
原创 论文笔记:ATime-Aware Trajectory Embedding Model for Next-Location Recommendation
仅报告Gowalla数据集的结果,其他两个数据集的观察结果类似。一旦所有嵌入向量都学习完成,我们按以下方式生成下一个位置推荐。
2024-06-13 19:54:45 1194
原创 论文笔记:Pre-training Context and Time Aware Location Embeddings from Spatial-TemporalTrajectories for U
AAAI 2021。
2024-06-13 16:16:08 296 1
原创 论文笔记:A survey on next location prediction techniques, applications, and challenges
2022。
2024-06-13 14:55:29 871
原创 torchvision笔记 torchvision.ops.sigmoid_focal_loss
会退化成普通的二元交叉熵损失(Binary Cross Entropy, BCE)权重因子,范围在 (0,1) 之间,用于平衡正负样本。存储每个元素的二分类标签(0表示负类,1表示正类)'none'、'mean' 或 'sum'。与 inputs 形状相同的浮点张量。'none' 表示对输出不进行约简;'mean' 表示将输出取平均;当 =α=1 且 γ=0= 时,'sum' 表示将输出求和。默认为 'none'
2024-06-11 16:11:31 351
原创 机器学习笔记:label smoothing
在传统的分类任务中,我们通常使用硬标签(hard labels) 即如果一个样本属于某个类别,其对应的标签就是一个全0的向量,除了表示这个类别的位置为1。 例如,在一个3类分类任务中,某个样本的标签可能是 [0,1,0] Label Smoothing 的思想是将这些硬标签替换为软标签(soft labels)。 例如,对于上述的三类问题,我们可以将标签 [0,1,0]转换为 [0.1,0.8,0.1] 这样做的效果是降低模型对于标签的绝对信任度,鼓励模型学习到更加平滑的概率分布
2024-06-10 23:57:19 338
原创 机器学习笔记:focal loss
1 介绍Focal Loss 是一种在类别不平衡的情况下改善模型性能的损失函数 最初在 2017 年的论文《Focal Loss for Dense Object Detection》中提出 这种损失函数主要用于解决在有挑战性的对象检测任务中,易分类的负样本占据主导地位的问题,从而导致模型难以学习到难分类样本的特征Focal Loss 修改了标准的交叉熵损失函数,通过减少易分类样本的相对损失来增加对难分类样本的关注 其基本形式为如下FL的部分 γ 是调节因子,用于控制易分类样本对损
2024-06-10 23:38:42 438
原创 论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention
ACL 2023。
2024-06-10 15:09:05 210
原创 论文笔记/数据集笔记:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning
ACL 2022。
2024-06-10 14:33:57 346
原创 数据集笔记:DGraph 大规模动态图数据集
DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边DGraph 中的节点表示金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签异常与正常用户比例约为 1:100。
2024-06-08 20:21:18 319 1
原创 pytorch 笔记:pytorch 优化内容(更新中)
时,PyTorch 会在程序第一次执行每种卷积配置时启用一个自动调优器,这个调优器通过实际运行不同的卷积算法来测试它们的性能。(默认值)时,PyTorch/cuDNN 会选择一个合适的、通用的卷积算法来执行操作,而不会根据具体的网络配置进行优化。这是因为一旦为每种卷积配置选择了最优算法,就不需要再进行调整,每次执行同样的卷积操作都会使用这一最优算法。然后,它选择最快的算法,并在后续的训练过程中使用这一算法。这个“基准测试”过程只在第一次遇到新的卷积配置时进行。
2024-06-08 17:40:14 972
原创 accelerate 笔记:对齐不同设备配置的性能
确保在所有分布式情况下使用 utils.set_seed() 完全设置种子,以使训练可复现。举例:假设我们有:两个GPU用于“多GPU”、一个带有8个工作站的TPU pod。学习率应该根据设备的数量线性缩放。
2024-06-05 11:04:30 440
原创 Accelerate笔记:本地SGD
本地 SGD 是一种分布式训练技术,其中梯度不是每一步都同步。 每个进程都会更新自己版本的模型权重,在给定的步数后,通过跨所有进程平均这些权重来同步它们。 在底层,本地 SGD 代码禁用了自动梯度同步(但累积仍然如预期工作!)。 它每 local_sgd_steps 步(以及在训练循环结束时)平均模型参数。 提高了通信效率,并且特别是在计算机缺乏如 NVLink 等更快的互连时,可以显著加速训练。 如有必要,本地 SGD 也可以与梯度累积结合使用 限制:当前的实现只适用于基本的多 GP
2024-06-04 11:39:22 223
原创 accelerate 笔记: find_executable_batch_size 自动选择合适的batch
Accelerate 提供了 find_executable_batch_size() 工具。 这个工具在因 OOM(内存溢出)条件失败时重试代码,并自动降低批量大小。 对于每个 OOM 条件,该算法将批量大小减半并重试代码,直到成功。
2024-06-03 22:34:25 135
原创 accelerate 的一个tip:early stopping 处可能存在的bug
这样只有进程1上也early stop之后,才会结束accelerate的分布式训练。
2024-06-03 21:51:07 409
原创 论文笔记:Vision GNN: An Image is Worth Graph of Nodes
首次将图神经网络用于视觉任务,同时能取得很好的效果。
2024-05-29 20:32:31 546 1
原创 论文笔记:PATCHMIXER: A PATCH-MIXING ARCHITECTURE FOR LONG-TERM TIME SERIES FORECASTING
2023 10 arxiv
2024-05-29 16:59:51 283 1
原创 huggingface 笔记:device_map
device_map在除了第一个GPU之外的所有GPU上均匀分配模型,并且只有在其他GPU放不下时,才在GPU 0上放置内容当你需要在生成 Transformers 模型的输出时使用GPU 0进行一些处理时,这个选项非常有用。
2024-05-25 16:40:28 3431
原创 huggingface 笔记:PretrainModel
(str 或 torch.dtype, 可选) — 覆盖默认的 torch.dtype,并在特定的数据类型下加载模型。返回模型的输入嵌入,即将词汇映射到隐藏状态的 PyTorch 模块。返回模型的输出嵌入,即将隐藏状态映射到词汇的 PyTorch 模块。是否强制(重新)下载模型权重和配置文件,覆盖已存在的缓存版本。(bool, 可选,默认为 False) -(bool, 可选,默认为 False) -自定义模型的输入嵌入层,通过提供一个新的。获取模型的内存占用(以字节为单位)来替换默认的输入嵌入。
2024-05-25 16:13:22 755
原创 论文笔记:GPT4Rec: Graph Prompt Tuning for Streaming Recommendation
SIGIR 2024。
2024-05-25 13:13:12 899
原创 论文笔记:Integrating Large Language Models with Graphical Session-Based Recommendation
基于会话的推荐任务是基于用户历史行为会话构建的,并根据当前用户会话进行预测在此任务中,存在一个项目集 V,其中∣V∣ 为项目的数量,所有项目都是唯一的每个会话S=[v1,v2,...,vn] 由一系列用户的交互组成,其中vt 表示在 S 中时间 t 点击的项目,n 表示会话的长度SBR任务是预测用户在给定会话 S 中最有可能下次点击的项目对于训练过程中的每个给定会话 S,有一个对应的标签 y 作为目标。
2024-05-24 22:42:17 879 1
network embedding lecture slide
2023-01-01
python 实现 cmaes (调用方便)
2022-02-13
ASTGCN(AAAI 2019).pdf
2021-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人