- 博客(1407)
- 资源 (7)
- 收藏
- 关注
原创 论文笔记:Integrating Large Language Models with Graphical Session-Based Recommendation
基于会话的推荐任务是基于用户历史行为会话构建的,并根据当前用户会话进行预测在此任务中,存在一个项目集 V,其中∣V∣ 为项目的数量,所有项目都是唯一的每个会话S=[v1,v2,...,vn] 由一系列用户的交互组成,其中vt 表示在 S 中时间 t 点击的项目,n 表示会话的长度SBR任务是预测用户在给定会话 S 中最有可能下次点击的项目对于训练过程中的每个给定会话 S,有一个对应的标签 y 作为目标。
2024-05-24 22:42:17 246
原创 huggingface笔记:LLama 2
vocab_size(int, 可选,默认为32000) — LLaMA模型的词汇量大小。定义 通过调用LlamaModel时传递的inputs_ids表示的不同令牌的数量。(int, 可选,默认为4096) — 隐藏表示的维度(int, 可选,默认为11008) — MLP表示的维度(int, 可选,默认为32) — 解码器中的隐藏层数量(int, 可选,默认为32) — 解码器中每个注意力层的注意力头数。hidden_act。
2024-05-24 20:57:41 648
原创 网站笔记:huggingface——can you run it?
指的是在LoRa微调中,仅有2%的参数是可训练的,其余的参数保持冻结状态。筛选出所有内存容量在选择范围之间的GPU。下拉菜单选择具体的GPU型号。滑动条设置了2%的值。
2024-05-23 17:46:09 330
原创 网站笔记:huggingface model memory calculator
下表格解释了使用Adam训练的具体细节,包括在不同精度下模型训练过程中各阶段的内存需求。
2024-05-22 22:36:21 107
原创 huggingface笔记: accelerate estimate-memory 命令
模型与之集成的库名称,如 transformers。仅在 Hub 上未存储此信息时需要。
2024-05-22 18:41:45 150
原创 hugging face笔记:PEFT
r=64,:指定 LoRA 层的缩放因子。:设置在 LoRA 层中使用的 dropout 比率,以避免过拟合。r=64:设置每个 LoRA 层的秩,即低秩矩阵的维度。:指定不在 LoRA 层中使用偏置项。:设定这个 LoRA 配置是为了因果语言模型任务。
2024-05-21 13:18:00 389
原创 huggingface 笔记:查看GPU占用情况
为了打印GPU利用率和使用Trainer进行训练运行的摘要统计信息,定义了两个辅助函数。在我这边的GPU上跑不起来:可能是不同版本的cuda、pytorch导致的(不确定)
2024-05-20 23:22:46 331
原创 机器学习/huggingface笔记:Transformer内存占用刨析 和高效训练
参考内容: Model training anatomy (huggingface.co)
2024-05-20 23:06:09 149 1
原创 pytorch笔记nn.functional.one_hot & 衍生(有一个padding对应的全零向量)
接收一个包含索引值的 LongTensor,形状为(),并返回一个形状为(, num_classes)的张量,该张量在所有位置都是零,除了在输入张量对应值的索引位置处为1。(int) – 总类别数。如果设置为-1,则类别数将被推断为输入张量中最大类别值加一。num_classes必须比tensor中出现的数字多,否则会报错。
2024-05-19 16:04:21 252
原创 huggingface 笔记 finetune模型
在将预测传递给 compute 之前,需要将 logits 转换为预测。首先数据集需要使用pytorch需要的DataLoader。创建数据集的一个较小子集来进行微调,以减少所需的时间。然后调用 compute 方法计算预测的准确性。然后就是pytorch训练“三件套”【不用设计优化器欸】
2024-05-16 10:31:06 362
原创 huggingface 笔记:AutoTokenizer,AutoClass
AutoClass 是一个快捷方式,它可以自动从模型的名称或路径检索预训练模型的架构。只需要为任务选择适当的 AutoClass 及其关联的预处理类。
2024-05-13 10:12:47 220
原创 Libcity 笔记:自定义模型
在/libcity/model/trajectory_loc_prediction/,我们复制一份Deepmove.py,得到DM_tst.py,我们不改变其中的机制,只动class name。在config/model/traj_loc_pred/ 添加 DM_tst.json文件,然后就ok了。
2024-05-12 21:34:32 143
原创 论文笔记:PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY
Carlini等人[2023a]、Kandpal等人[2022]和Lee等人[2022]都发现,即使在训练集中几乎没有重复时,记忆化仍然会发生。这些影子模型用于估计目标数据集的分布,从而更好地推断目标模型的训练数据。在LLMs的情况下,这些模型可能使用数十亿的参数和数据点构建,这通常是非常昂贵的。:在去重后,攻击者选择概率最高的前k个候选目标,这些目标可能包含敏感的训练数据。然而,训练影子模型可能非常昂贵,特别是对于具有数十亿参数和数据点的大型语言模型。减轻记忆化的最直接和即时的方法是去重训练数据集。
2024-05-10 15:14:54 690 1
原创 libcity 笔记:添加自定义dataset
那其他需要修改哪些内容,使得这个dataset生效呢。添加文件GeolifeDMDataset.json。
2024-05-09 15:31:28 242
原创 libcity/model/trajectory_loc_prediction/DeepMove.py
如果评估方法是 ,则执行以下步骤: 构建正负样本索引 (): 使用 函数将批次中的目标位置 () 与负样本位置 () 结合。这里,目标位置通过 方法添加一个维度以匹配负样本位置的维度,使其成为 的形状。 选择得分: 使用 方法根据 从得分张量中选择相关的得分。这一步骤的目的是从模型输出的所有可能位置的得分中,仅提取出与正样本和负样本对应的得分。 调用 来计算模型输出得分和批次中的目标标签 () 之间的损失。
2024-05-08 17:13:31 185
原创 libcity笔记:详细流程(以DeepMove为例)
从ibcity/model/trajectory_loc_prediction/DeepMove.py 中生成 DeepMove类。首先检查输入的参数是否已经是布尔值类型,如果是,则直接返回该值,无需转换。异常,表示期望一个布尔值。
2024-05-07 10:31:18 349
原创 libcity笔记:libcity/config/config_parser.py/ConfigParser
对应的值,如果键不存在,则返回默认值。
2024-05-07 10:31:13 329
原创 libcity笔记:libcity/evaluator/traj_loc_pred_evaluator.py
检查配置是否符合评估器的要求,确保评估过程能够顺利执行。
2024-05-07 10:31:00 221
原创 libcity 笔记:libcity/executor/traj_loc_pred_executor.py
根据配置中指定的优化器类型创建并返回一个适合用于模型训练的优化器对象。
2024-05-07 10:08:24 229
原创 Libcity笔记:libcity/data/dataset/trajectory_encoder/standard_trajectory_encoder.py
将传入的时间对象time转换成一个整数,以区分工作日和周末的时间time.hour。
2024-05-06 20:24:38 142 3
原创 论文笔记:DeepMove: Predicting Human Mobility with Attentional Recurrent Networks
WWW 2018。
2024-05-06 13:05:03 425
原创 libcity笔记:参数设置与参数优先级
命令行参数(命令行python run_model.py时导入的)用户定义配置文件(命令行python run_model.py时由config_file导入的)模型所在模块默认参数。
2024-05-05 15:22:10 237 1
原创 libcity 笔记:基本使用方法
一个统一、全面、可扩展的代码库,为交通预测领域提供了一个可靠的实验工具和便捷的开发框架目前支持交通状态预测交通流量预测交通速度预测交通需求预测起点-终点(OD)矩阵预测交通事故预测轨迹下一跳预测到达时间预测路网匹配路网表征学习。
2024-05-05 14:25:25 1150 3
原创 libcity笔记:支持的数据
描述METR_LALOS_LOOPPEMSPEMSD3PEMSD4PEMS_BAYPEMSD7PEMSD7(M)PEMSD8Q_TRAFFICSZ_TAXIM_DENSEROTTERDAM。
2024-05-05 11:34:16 664
原创 libcity 笔记:支持的模型
含有三个作为时间组件的基于长短期记忆内存(LSTM)的模块和作为空间组件的三个用于提取目标站点空间关联的空间矩阵。自适应图卷积循环网络,通过自适应模块增强传统图卷积,并组合成循环神经网络,以捕捉细粒度时空关联。时空多头图注意力机制网络,在图上直接建构卷积的同时,考虑邻居节点的特征和边权,生成新的节点表示。合并残差网络(ResNet),图卷积网络(GCN)和长短期记忆内存(LSTM)降级版的ASTGCN,称为多组件时空图卷积网络,去掉了原模型的时空注意力机制。时空同步图卷积网络(STSGCN)
2024-05-05 01:15:53 1018 3
原创 论文辅助笔记:Tempo之modules/prompt.py
1 get_prompt_param_cls2 get_prompt_value3 Prompt 类3.1 _init_weights3.2 forward
2024-05-04 11:25:25 556
原创 论文辅助笔记:Tempo 之 model.py
实例可以像字典一样通过键来获取属性值。实例可以像字典一样通过键来设置属性值。操作符来检查属性是否存在。重载了 Python 的。实例可以像字典一样使用。类实例转换为一个字典。
2024-05-04 10:55:38 436
network embedding lecture slide
2023-01-01
python 实现 cmaes (调用方便)
2022-02-13
ASTGCN(AAAI 2019).pdf
2021-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人