自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1439)
  • 资源 (7)
  • 收藏
  • 关注

原创 论文略读 Let’s Speak Trajectories: A Vision To Use NLP Models For Trajectory Analysis Tasks

将轨迹任务和NLP任务对齐。

2024-06-17 15:39:12 47

原创 numpy 笔记np.atleast_1d

【代码】numpy 笔记np.atleast_1d。

2024-06-15 13:25:06 61

原创 pytorch 笔记:torch.dist

时,这表示使用曼哈顿距离(或 L1 范数)。(无穷大)可以用来计算切比雪夫距离。计算距离时使用的范数的阶数。,这表示使用欧几里得距离。

2024-06-14 16:28:49 227

原创 论文笔记:ATime-Aware Trajectory Embedding Model for Next-Location Recommendation

仅报告Gowalla数据集的结果,其他两个数据集的观察结果类似。一旦所有嵌入向量都学习完成,我们按以下方式生成下一个位置推荐。

2024-06-13 19:54:45 1020

原创 论文笔记:Pre-training Context and Time Aware Location Embeddings from Spatial-TemporalTrajectories for U

AAAI 2021。

2024-06-13 16:16:08 248 1

原创 论文笔记:A survey on next location prediction techniques, applications, and challenges

2022。

2024-06-13 14:55:29 794

原创 torchvision笔记 torchvision.ops.sigmoid_focal_loss

会退化成普通的二元交叉熵损失(Binary Cross Entropy, BCE)权重因子,范围在 (0,1) 之间,用于平衡正负样本。存储每个元素的二分类标签(0表示负类,1表示正类)'none'、'mean' 或 'sum'。与 inputs 形状相同的浮点张量。'none' 表示对输出不进行约简;'mean' 表示将输出取平均;当 =α=1 且 γ=0= 时,'sum' 表示将输出求和。默认为 'none'

2024-06-11 16:11:31 229

原创 论文笔记:Frozen Language Model Helps ECG Zero-Shot Learning

2023 MIDL。

2024-06-11 14:37:36 371

原创 机器学习笔记:label smoothing

在传统的分类任务中,我们通常使用硬标签(hard labels) 即如果一个样本属于某个类别,其对应的标签就是一个全0的向量,除了表示这个类别的位置为1。 例如,在一个3类分类任务中,某个样本的标签可能是 [0,1,0] Label Smoothing 的思想是将这些硬标签替换为软标签(soft labels)。 例如,对于上述的三类问题,我们可以将标签 [0,1,0]转换为 [0.1,0.8,0.1] 这样做的效果是降低模型对于标签的绝对信任度,鼓励模型学习到更加平滑的概率分布

2024-06-10 23:57:19 247

原创 机器学习笔记:focal loss

1 介绍Focal Loss 是一种在类别不平衡的情况下改善模型性能的损失函数 最初在 2017 年的论文《Focal Loss for Dense Object Detection》中提出 这种损失函数主要用于解决在有挑战性的对象检测任务中,易分类的负样本占据主导地位的问题,从而导致模型难以学习到难分类样本的特征Focal Loss 修改了标准的交叉熵损失函数,通过减少易分类样本的相对损失来增加对难分类样本的关注 其基本形式为如下FL的部分 γ 是调节因子,用于控制易分类样本对损

2024-06-10 23:38:42 321

原创 遗传算法笔记:基本工作流程

使用生成的新一代重复这个过程,就可以以获得X1、X2、X3、X4和X5的最佳解。——>这就是第二代染色体了。

2024-06-10 20:39:35 687

原创 论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention

ACL 2023。

2024-06-10 15:09:05 165

原创 论文笔记/数据集笔记:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning

ACL 2022。

2024-06-10 14:33:57 306

原创 数据集笔记:DGraph 大规模动态图数据集

DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边DGraph 中的节点表示金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签异常与正常用户比例约为 1:100。

2024-06-08 20:21:18 260 1

原创 pytorch 笔记:pytorch 优化内容(更新中)

时,PyTorch 会在程序第一次执行每种卷积配置时启用一个自动调优器,这个调优器通过实际运行不同的卷积算法来测试它们的性能。(默认值)时,PyTorch/cuDNN 会选择一个合适的、通用的卷积算法来执行操作,而不会根据具体的网络配置进行优化。这是因为一旦为每种卷积配置选择了最优算法,就不需要再进行调整,每次执行同样的卷积操作都会使用这一最优算法。然后,它选择最快的算法,并在后续的训练过程中使用这一算法。这个“基准测试”过程只在第一次遇到新的卷积配置时进行。

2024-06-08 17:40:14 946

原创 accelerate 笔记:梯度同步的时间效率

先直观看一下不进行任何改进的话,每个batch都进行通信,会是什么样的速度:

2024-06-05 14:34:07 487

原创 accelerate 笔记:对齐不同设备配置的性能

确保在所有分布式情况下使用 utils.set_seed() 完全设置种子,以使训练可复现。举例:假设我们有:两个GPU用于“多GPU”、一个带有8个工作站的TPU pod。学习率应该根据设备的数量线性缩放。

2024-06-05 11:04:30 322

原创 Accelerate笔记:本地SGD

本地 SGD 是一种分布式训练技术,其中梯度不是每一步都同步。 每个进程都会更新自己版本的模型权重,在给定的步数后,通过跨所有进程平均这些权重来同步它们。 在底层,本地 SGD 代码禁用了自动梯度同步(但累积仍然如预期工作!)。 它每 local_sgd_steps 步(以及在训练循环结束时)平均模型参数。 提高了通信效率,并且特别是在计算机缺乏如 NVLink 等更快的互连时,可以显著加速训练。 如有必要,本地 SGD 也可以与梯度累积结合使用 限制:当前的实现只适用于基本的多 GP

2024-06-04 11:39:22 182

原创 accelerate 笔记: find_executable_batch_size 自动选择合适的batch

Accelerate 提供了 find_executable_batch_size() 工具。 这个工具在因 OOM(内存溢出)条件失败时重试代码,并自动降低批量大小。 对于每个 OOM 条件,该算法将批量大小减半并重试代码,直到成功。

2024-06-03 22:34:25 88

原创 accelerate 的一个tip:early stopping 处可能存在的bug

这样只有进程1上也early stop之后,才会结束accelerate的分布式训练。

2024-06-03 21:51:07 368

原创 Accelerate 笔记:保存与加载文件

【代码】Accelerate 笔记:保存与加载文件。

2024-06-03 21:29:11 265

原创 accelerate笔记:实验跟踪

【代码】huggingface笔记:实验跟踪。

2024-06-03 21:00:44 224

原创 pytorch笔记:自动混合精度(AMP)

输入为半精度(FP16),输出为全精度(FP32)

2024-06-03 14:30:52 1155

原创 huggingface笔记:实例化大模型(Acclerate)

要在 Transformers 中启用大模型推理,在。

2024-05-30 23:47:32 402

原创 论文笔记:Vision GNN: An Image is Worth Graph of Nodes

首次将图神经网络用于视觉任务,同时能取得很好的效果。

2024-05-29 20:32:31 424 1

原创 论文笔记:PATCHMIXER: A PATCH-MIXING ARCHITECTURE FOR LONG-TERM TIME SERIES FORECASTING

2023 10 arxiv

2024-05-29 16:59:51 185 1

原创 pytorch笔记:topk

返回给定输入张量沿指定维度的最大的 k 个元素dimlargestFalsedimsortedTrue。

2024-05-29 10:11:13 277

原创 huggingface笔记 accelerate launch

用正确的参数在分布式系统上启动指定的脚本。

2024-05-27 16:12:36 873

原创 pytorch笔记:torch.nn.Flatten()

将一个连续的维度范围扁平化为一个张量start_dimend_dim。

2024-05-26 11:07:26 160

原创 huggingface 笔记:device_map

device_map在除了第一个GPU之外的所有GPU上均匀分配模型,并且只有在其他GPU放不下时,才在GPU 0上放置内容当你需要在生成 Transformers 模型的输出时使用GPU 0进行一些处理时,这个选项非常有用。

2024-05-25 16:40:28 772

原创 huggingface 笔记:PretrainModel

(str 或 torch.dtype, 可选) — 覆盖默认的 torch.dtype,并在特定的数据类型下加载模型。返回模型的输入嵌入,即将词汇映射到隐藏状态的 PyTorch 模块。返回模型的输出嵌入,即将隐藏状态映射到词汇的 PyTorch 模块。是否强制(重新)下载模型权重和配置文件,覆盖已存在的缓存版本。(bool, 可选,默认为 False) -(bool, 可选,默认为 False) -自定义模型的输入嵌入层,通过提供一个新的。获取模型的内存占用(以字节为单位)来替换默认的输入嵌入。

2024-05-25 16:13:22 652

原创 论文笔记:GPT4Rec: Graph Prompt Tuning for Streaming Recommendation

SIGIR 2024。

2024-05-25 13:13:12 738

原创 论文笔记:Integrating Large Language Models with Graphical Session-Based Recommendation

基于会话的推荐任务是基于用户历史行为会话构建的,并根据当前用户会话进行预测在此任务中,存在一个项目集 V,其中∣V∣ 为项目的数量,所有项目都是唯一的每个会话S=[v1​,v2​,...,vn​] 由一系列用户的交互组成,其中vt​ 表示在 S 中时间 t 点击的项目,n 表示会话的长度SBR任务是预测用户在给定会话 S 中最有可能下次点击的项目对于训练过程中的每个给定会话 S,有一个对应的标签 y 作为目标。

2024-05-24 22:42:17 819 1

原创 huggingface笔记:LLama 2

vocab_size(int, 可选,默认为32000) — LLaMA模型的词汇量大小。定义 通过调用LlamaModel时传递的inputs_ids表示的不同令牌的数量。(int, 可选,默认为4096) — 隐藏表示的维度(int, 可选,默认为11008) — MLP表示的维度(int, 可选,默认为32) — 解码器中的隐藏层数量(int, 可选,默认为32) — 解码器中每个注意力层的注意力头数。hidden_act。

2024-05-24 20:57:41 1186

原创 网站笔记:huggingface——can you run it?

指的是在LoRa微调中,仅有2%的参数是可训练的,其余的参数保持冻结状态。筛选出所有内存容量在选择范围之间的GPU。下拉菜单选择具体的GPU型号。滑动条设置了2%的值。

2024-05-23 17:46:09 576

原创 网站笔记:huggingface model memory calculator

下表格解释了使用Adam训练的具体细节,包括在不同精度下模型训练过程中各阶段的内存需求。

2024-05-22 22:36:21 422

原创 huggingface笔记: accelerate estimate-memory 命令

模型与之集成的库名称,如 transformers。仅在 Hub 上未存储此信息时需要。

2024-05-22 18:41:45 370

原创 huggingface 笔记:聊天模型

在原来生成的chat的基础上,追加一条消息,并将其传入pipeline。

2024-05-21 22:40:37 421

原创 hugging face笔记:PEFT

r=64,:指定 LoRA 层的缩放因子。:设置在 LoRA 层中使用的 dropout 比率,以避免过拟合。r=64:设置每个 LoRA 层的秩,即低秩矩阵的维度。:指定不在 LoRA 层中使用偏置项。:设定这个 LoRA 配置是为了因果语言模型任务。

2024-05-21 13:18:00 536

原创 huggingface 笔记:查看GPU占用情况

为了打印GPU利用率和使用Trainer进行训练运行的摘要统计信息,定义了两个辅助函数。在我这边的GPU上跑不起来:可能是不同版本的cuda、pytorch导致的(不确定)

2024-05-20 23:22:46 392

network embedding lecture slide

Representation Learning on Networks 1) Node embeddings:Map nodes to low dimensional embeddings 2) Graph neural networks:Deep learning architectures for graph structured data 3) Applications

2023-01-01

elements of information theory

elements of information theory

2022-10-21

计算机组成与设计硬件软件接口-课后习题答案

计算机组成与设计硬件软件接口--课后习题答案

2022-10-21

python 实现 cmaes (调用方便)

import barecmaes2 as cma res = cma.fmin( 目标函数名, 结果向量的初始值, cmaes寻找值的标准差, 目标函数的其他参数, 最大更新轮数, 目标函数值【默认越小越好】, 多少轮输出一次中间结果, 多少轮输出进log文件, 多少轮画一张图) 返回的结果是 (xbest, fbest, evalsbest, evals, iterations, xmean,`` `` termination_condition, CMAES_object_instance, data_logger) eg: res = cma.fmin(cma.Fcts.elli, 10 * [0.5], 0.3, verb_disp=100,verb_plot=0)

2022-02-13

newyork.osm.pbf

newyork.osm.pbf

2021-09-24

algorithm design answer

​​Jon kleinberg那本的答案

2021-09-12

ASTGCN(AAAI 2019).pdf

attention based spatial-temporal graph convolutional networks for traffic flow forecasting

2021-08-13

浅谈研究生学位论文选题

浅谈研究生学位论文选题

2021-08-01

赵鑫_中国人民大学_如何以初学者的身份写好一篇国际学术论文.zip

赵鑫_中国人民大学_如何以初学者的身份写好一篇国际学术论文.zip

2021-08-01

Tips for prospective and early-stage PhD students

ICLR 2020

2021-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除