是攸宁啊
码龄3年
关注
提问 私信
  • 博客:68,130
    68,130
    总访问量
  • 39
    原创
  • 215,899
    排名
  • 231
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:xjtu️ to ustc 研零选手

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2021-09-13
博客简介:

Msc30839573的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    482
    当月
    2
个人成就
  • 获得341次点赞
  • 内容获得8次评论
  • 获得445次收藏
创作历程
  • 25篇
    2024年
  • 17篇
    2022年
  • 2篇
    2021年
成就勋章
TA的专栏
  • JAVA
    9篇
  • C
    5篇
  • 蓝桥杯-2022
    4篇
  • Linux
    1篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

代码编写规范

1.文件级定义(或者全局函数)之间隔两个空行,类方法之间隔一个空行。2.3关键字参数或参数默认值里的等号前后不加空格。2.1逗号、分号、冒号前不加空格,后边加一个空格。3.类(包括异常)名使用首字母大写驼峰式命名。2.2所有二元运算符前后各加一个空格。
原创
发布博客 2024.04.13 ·
628 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

DataLoader类

**dataset**:数据集对象,通常是 `torch.utils.data.Dataset` 类的子类对象,用于包装需要加载的数据。- **drop_last**:一个布尔值,表示是否丢弃最后一个不完整的批次,当数据总数不能被 batch_size 整除时使用。- **collate_fn**:用于自定义批处理方式的函数,通常在需要对每个批次进行一些自定义处理时使用。- **num_workers**:用于数据加载的子进程数量。- **batch_size**:每个批次中包含的样本数量。
原创
发布博客 2024.04.10 ·
308 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

lora微调过程

lora
原创
发布博客 2024.04.09 ·
800 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

A Survey for LLM

一、背景介绍我们关注大模型中的两个主流:大语言模型和预训练的基础模型。语言建模是许多自然语言处理任务的基础,而大语言模型(LLMs)的初衷是为了提高语言建模的性能。与传统的神经语言模型(NLMs)和小型预训练的语言模型(PLMs)相比,LLMs以其在解决各种复杂任务时的突发能力、上下文学习能力而为人所知,并重塑了我们使用AI的方式。随着多模态大语言模型(MLLMs)的发展,LLMs的下游任务远远超出了传统的自然语言范围,小型PLMs无法轻易解决这些问题。
原创
发布博客 2024.04.05 ·
935 阅读 ·
18 点赞 ·
0 评论 ·
27 收藏

lora微调/(sft、lora、p-tuning、freeze四种典型微调方法)

参考。
原创
发布博客 2024.03.30 ·
2484 阅读 ·
7 点赞 ·
0 评论 ·
21 收藏

AutoTimes: Autoregressive Time Series Forecasters via Large Language Models

其中,W1 和 W2 是权重矩阵,b1 和 b2 是偏置向量,activation 是非线性激活函数,x 是输入特征向量,h 是隐藏层输出特征向量,y 是最终输出特征向量。我们的方法通过下一个令牌预测建立了时间序列的类似令牌化,采用相同的自回归生成进行推理,并冻结LLM的块以充分利用固有的令牌转换。- 多层感知机适用于处理更复杂的非线性数据,通过多个非线性激活函数可以学习到数据中更复杂的非线性特征。2.表现出显著的方法通用性,并且可以通过更大的LLM,额外的文本或时间序列作为指令来实现增强的性能。
原创
发布博客 2024.03.29 ·
686 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

ARIMA

当自相关系数和偏自相关系数都没有收敛于0,说明这个时间序列不能纯用低阶的AR模型或者纯用低阶的MA模型来解释,需要低阶的AR和低阶的MA模型混合来解释。所以我们对这个高阶AR模型做分解,分解出一个低阶的AR模型和另一个特殊的高阶AR模型,其中分解出来的高阶AR模型恰好等价于一个低阶的MA模型。于是我们就可以用低阶的AR模型和低阶的MA模型来描述这个时间序列了,这就是ARMA模型。MA模型的阶数看自相关系数,AR模型的阶数看偏自相关系数。同样的,如果偏自相关系数p阶以后都趋于0,说明是AR(p)模型;
原创
发布博客 2024.03.25 ·
408 阅读 ·
6 点赞 ·
0 评论 ·
2 收藏

Autoformer: Decomposition Transformers withAuto-Correlation for Long-Term Series Forecasting

自相关(Auto-Correlation)是时间序列分析中一种重要的统计工具,用于检测序列中的自身相关性。Series Decomp Block使用传统的decomposition操作可以将序列分解为trend-cyclical和seasonal parts两个部分,这两个一个是可以反应短期的波动,另一个则反应长期的季节性。2.此外,我们设计了一种高效的自相关机制,在序列级别上进行相关性发现和信息聚合,这与以前的自注意家族形成了鲜明的对比。
原创
发布博客 2024.03.23 ·
637 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

DLinear:Are Transformers Effective for Time Series Forecasting?

DLlinear是Autoformer和具有线性层的FEDformer中使用的分解方案的组合。通过显式处理趋势,当数据中有明显的趋势时,DLlinear增强了普通线性的性能。当数据集中存在分布偏移时,为了提高LTSF线性的性能,NLlinear首先用序列的最后一个值减去输入。(2)iterated multi-step (IMS) forecasting:基于Transformer的长序列预测,因为执行的都是自回归策略(一个点一个点预测),导致会有显著的误差累积效应。
原创
发布博客 2024.03.21 ·
401 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Transformer:Embedding与位置编码

比如单词 I love you 对于love来进行位置编码。在Transformer中使用的是正弦余弦。把文字变成数字,并让数字表示文字的语意。针对词向量的位置编码,
原创
发布博客 2024.03.20 ·
303 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Informer: Beyond Efficient Transformer for Long SequenceTime-Series Forecasting && 常见项目代码结构解读

一、困难1.Transformer结构无法直接运用在LSTF, 因为存在二次时间复杂性、高内存使用率和编码器-解码器架构的固有限制等问题提出:模型总体结构:注意力机制self-attention:了解哪些词对这个词是重要的,词与词之间彼此的关系➡️词向量求点积,当两个词向量点积为0,表示两个词向量是垂直的,彼此间毫无关系;在一个方向,点击为1,完全相关➡️Q K 表示对一个句子从不同维度的理解,(Q*K得到词与词之间的相关性)*原始的语义V = 权重 * 原始的语意。
原创
发布博客 2024.03.20 ·
433 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

TIMESNET: TEMPORAL 2D-VARIATION MODELINGFOR GENERAL TIME SERIES ANALYSIS

其次,对于每个周期,我们发现每个时间点的变化不仅受其相邻区域的时间模式的影响,而且与相邻周期的变化高度相关。2.单个时间点包含的信息较少,所以我们更多关注的是时间序列的变化性质,但现实世界时间序列的变化总是涉及复杂的时间模式,其中多个变化(如上升、下降、波动等)相互混合和重叠,这使得时间变化建模极具挑战性。将1d时间序列转换为一组基于多个周期的2d张量,这种变化可以将周期间变化和周期内变化分别嵌入到2d张量的行和列中。所以,我们找到信号幅值最大的那个正弦波的频率,作为函数的周期。1.发掘时间序列的周期性。
原创
发布博客 2024.03.19 ·
748 阅读 ·
21 点赞 ·
0 评论 ·
20 收藏

Python基础知识+WebAPI

date解释:1.series索引列变普通列:当您使用时,它已经将原来的Series对象转换成了一个 DataFrame,并将原来的索引(date)转换成了一个普通列。这一步已经完成了您想要的转换。2.重新赋给列名:Python的json模块并不能直接处理DataFrame对象。Pandas DataFrame对象并不是Python内置的JSON可序列化类型,因此你无法直接使用函数来序列化它。
原创
发布博客 2024.03.18 ·
1138 阅读 ·
9 点赞 ·
0 评论 ·
11 收藏

GNN/GCN自己学习

输入的格式不需要固定,是随意的,没有CV NLP的resize等固定大小之说。比如说人的社交网络,随时会变。以图像为例,每个像素点周围都有邻居,用邻接矩阵表示哪些点之间有关系,邻接矩阵A是对称的,也可以不对称。实际是2xN, (source , target),要不然维护一个NxN太多了。整合特征(embedding),做重构。五、每个点特征更新(聚合 更新)计算特征,之后传入神经网络。你的度和我的度都要考虑进来。更新时肯定要考虑他们的邻居。优势:可以做半监督学习。使用度矩阵来做个平均。
原创
发布博客 2024.03.13 ·
451 阅读 ·
8 点赞 ·
0 评论 ·
8 收藏

代码复现错误

张量可以是多维的,可以是标量(0维张量)、向量(1维张量)、矩阵(2维张量)甚至更高维度的数组。在深度学习中,神经网络的输入、输出和参数通常都表示为张量,通过张量之间的运算来实现神经网络模型的训练和推理过程。较小的批量大小可能会导致更频繁的参数更新,这有助于加快模型的训练速度。对于某些模型和数据集,较小的批量大小可能导致训练过程的不稳定性,包括震荡、收敛速度下降等问题。一些研究表明,通过减小批量大小,模型可能会更好地泛化到新的数据上,从而提高模型的性能。减小batch大小,可以减小每一批次的内存使用。
原创
发布博客 2024.03.04 ·
1266 阅读 ·
20 点赞 ·
0 评论 ·
25 收藏

传统时间预测:Deep Uncertainty Quantification: A Machine Learning Approachfor Weather Forecasting

这种方法通常需要更大规模的数据集和更复杂的模型来学习数据的复杂特征和模式,但同时也能够减少人工设计特征的工作量,提高系统的整体性能。在深度学习和统计建模中,我们通常希望模型能够给出单值的预测结果,同时也能够估计这个预测结果的不确定性,这对于提高模型的可靠性和解释性非常重要。:在深度学习模型中,可以通过使用不同的损失函数(如均方误差损失和KL散度损失)、集成学习(如dropout、贝叶斯神经网络集成)或者将不确定性作为额外的输出来估计模型的不确定性。这样可以在进行单值预测的同时获得不确定性的估计。
原创
发布博客 2024.02.22 ·
936 阅读 ·
22 点赞 ·
0 评论 ·
18 收藏

Urban Region Embedding with Adaptive Region Correlation Discovery

一、Abstact城市计算领域的一个最新趋势是利用多模态数据进行城市区域嵌入,这可以进一步扩展到各种下游城市感知任务。许多先前的研究依赖于多图嵌入技术,并遵循两个阶段的范式:首先基于固定区域相关性构建K最近邻图,然后在后验阶段将多视图信息融合以学习区域表示。这种方法无法发现区域之间微妙的相关性,因为预先确定的图边权重难以捕捉到这种相关性。在本文中,我们通过构建可学习权重的区域完全图形成了一种新的一阶段范式,并提出了一种名为Region Embedding method with Adaptive reg
原创
发布博客 2024.02.19 ·
951 阅读 ·
26 点赞 ·
0 评论 ·
15 收藏

LLM4TS文献阅读:One Fits All:Power General Time Series Analysis by Pretrained LM

与NLP和CV中的统一模型可以执行不同的任务不同,特殊设计的方法在每个时间序列分析任务中仍然占主导地位,如分类、异常检测、预测和少镜头学习。阻碍对时间序列分析的预训练模型的开发的主要挑战是缺乏大量的训练数据。我们的结果表明,在自然语言或图像上的预先训练的模型可以在所有主要的时间序列分析中导致可比的或最先进的性能。除了在预先训练过的LM中使用的层范数外,我们还加入了一个简单的数据归一化块,反向实例范数Kim等人(2022),以进一步促进知识转移。我们的体系结构保留了预训练模型中的位置嵌入层和自我注意块。
原创
发布博客 2024.02.19 ·
939 阅读 ·
7 点赞 ·
0 评论 ·
11 收藏

大模型微调(fine-tunning)

用好大模型的第一个层次,是掌握,第二个层次,是,这也是今天这篇文章的主题。补充:prompt engineeringPrompt Engineering(提示工程)是一种技术方法,用于设计和构建基于语言模型的对话系统。它的目标是通过设置合适的提示(prompt)或问题,来引导模型生成期望的回复或响应。在对话系统中,通常需要指定用户的输入(prompt)以及期望的输出。Prompt Engineering 的思想是利用这些输入和输出的组合来设计一个能够产生符合预期回复的模型。
原创
发布博客 2024.02.18 ·
1670 阅读 ·
26 点赞 ·
1 评论 ·
39 收藏

patchTST

2.大大减少了馈送到Transformer编码器的标记数量。在这里,每个patch都变成了输入到Transformer的一个token。这样,我们可以将token的数量从L减少到大约L/S。1.模型可以通过观察一组时间步骤而不是单个时间步骤来提取局部语义含义。
原创
发布博客 2024.02.07 ·
979 阅读 ·
11 点赞 ·
0 评论 ·
9 收藏
加载更多