自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

STAR GAME

========游戏开始========

  • 博客(408)
  • 资源 (2)
  • 收藏
  • 关注

原创 204、【动态规划】牛客网 ——DP3 跳台阶扩展问题(Python版本)

一个DP问题,相比于普通爬楼(只能爬一层或者两层)对应的状态函数为。时,为1,表示从第一层台阶直接跳到第n层。本题的dp是各层方式都可以,那么就是。

2024-07-22 17:12:52 132

原创 RAG的学习与实践——LangChain和LlamaIndex学习笔记

RAG(Retrieval Augmented Generation)系统,代表“检索增强生成”。

2024-07-09 16:42:10 765

原创 p-tuning算法介绍及其pytorch代码实现

【代码】p-tuning的pytorch实现。

2024-07-05 15:39:17 395

原创 N-gram算法的pytorch代码实现

【代码】N-gram的pytorch代码实现。

2024-07-05 11:42:05 156

原创 学习LLM的随笔

(3)困惑度:用来衡量模型在预测下一个词时的平均不确定性。困惑度可以被理解为每个标记(token)的平均"分支因子(branching factor)"。这里的“分支因子”可以理解为在每个位置,模型认为有多少种可能的词会出现。编码需要的编码长度。由于不同事件发生的概率不同,我们不能简单地将这些信息量相加,而应该根据它们发生的概率进行加权平均。熵值越大,所含信息量越多,事件发生的情况越不确定。熵值越小,所含信息量越小,事件发生的情况确定。并求和,相当于是做了加权求和。采用困惑度时,会遇到一些问题。

2024-07-03 17:24:12 869

原创 【检索增强】Retrieval-Augmented Generation for Large Language Models:A Survey

LLM检索增强的新范式

2024-03-29 10:53:31 1374

原创 【LLM长文处理】Compressing Context to Enhance Inference Efficiency of Large Language Models

管理长文和扩展对话:内存和推理事件的计算需求增加:选择性上下文方法:识别和修剪输入上下文中的冗余,使输入更加紧凑,提升推理效率。:需要长上下文处理的常见数据源:arXiv论文、新闻论文、长对话、摘要总结、问答、响应生成:显著降低内存成本和生成延迟,同时保持相当的性能。:上下文成本降低50%、内存使用降低36%,推理时间降低32%,仅在四个下游应用有0.023和0.038的轻微性能下降。

2024-01-29 16:15:20 1001

原创 python将logger内容保存到日志文件中 + 将控制台信息保存到日志文件中 + 生成时间戳记录

1、 使用Logger对象输出,记录日志2、重定向控制台输出,记录日志3、生成时间戳。

2024-01-23 18:02:55 798 1

原创 【LLM长文处理】WALKING DOWN THE MEMORY MAZE: BEYOND CONTEXT LIMIT THROUGH INTERACTIVE READING

长文本理解:上下文窗口长度有限:外推位置嵌入、递归、检索来扩展上下文窗口:仍然不能有效处理长文理解:MemWalker:将LLM视为一个交互代理,允许它通过迭代提示来决定如何阅读文本。将长上下文处理成一个摘要节点树。接受到查询后,会在树中导航搜索,收集到足够信息就进行响应。:(摘要中未提及,下面是文章中提及的)使用来自scroll基准数据集:QuALITY、SummScreenFD、GovReport:优于使用长上下文窗口、递归、检索的基线方法,并提高了可解释性。

2024-01-17 11:07:39 485

原创 【HuggingFace Transformer库学习笔记】基础组件学习:Trainer

如果使用的是vscode,可直接在vscode中启动,输入。(会提示安装),然后再点击在当前工作目录里启动。

2024-01-13 19:05:36 925

原创 【HuggingFace Transformer库学习笔记】基础组件学习:Evaluate

评估指标计算——全局计算。评估指标计算——迭代计算。

2024-01-13 18:06:21 587 2

原创 【HuggingFace Transformer库学习笔记】基础组件学习:Datasets

对于分类任务,指定标签字段,然后让这个数据集均衡划分标签字段。加载文件夹内全部文件作为数据集。加载数据集合集中的某一项子集。通过自定义加载脚本加载数据集。按照数据集划分进行加载。

2024-01-13 17:23:28 556

原创 【HuggingFace Transformer库学习笔记】基础组件学习:Model

Model学习

2024-01-10 18:07:07 696

原创 【LLM的概念理解能力】Concept Understanding In Large Language Models: An Empirical Study

在过去几年里,大语言模型已经成为了学术研究的前沿。最近发布的ChatGPT进一步展示了大语言模型在各种先进技术和工程规划的下游任务中的潜力(Brown et al., 2020)。另一方面,大语言模型理解的能力也会受到其在现实场景中的部署,这使得这一研究问题的探索成为一个新的课题。本文主要从抽象概念和具体概念的角度来研究大语言模型的理解能力。这种探索的灵感来自于现实世界中不同的任务通常需要不同抽象级别的理解能力。在与物理实体相关的任务中,例如对动物的类型进行分类,可能需要更好地具体概念。

2024-01-10 16:59:15 1089

原创 Prompt 提示工程学习笔记

任务描述、输入数据、上下文信息、提示风格:描述想要让LLM遵循的指令。描述应详细清晰,可进一步使用关键词突出特殊设置,从而更好地指导LLM工作。:对于非结构化数据可用文本描述的方式输入,对于非结构化数据(知识图谱、表格、代码等)采用一种合适的方式,例如:文本化、线性化转换函数。:上下文和背景信息。有助于更好地描述任务范例、任务目标、特殊的输出格式以及输入和输出之间的映射关系。:设置合适的提示风格,有助于激发LLM解决特定任务的能力。

2023-12-26 10:02:55 1326

原创 【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

探索大语言模型解决推理问题的能力。从头训练或微调模型,需要创建大量的高质量含中间步骤的数据集,成本过大。

2023-12-19 10:28:28 1084

原创 【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC

(1)增强机器阅读理解能力的鲁棒性(2)设计prompt和合适的参数,增强机器阅读理解能力(一次回答多个问题)

2023-12-06 16:26:24 388

原创 【HuggingFace Transformer库学习笔记】基础组件学习:Tokenizer

保存到本地加载本地中保存的tokenizer。

2023-12-01 17:13:46 839

原创 【HuggingFace Transformer库学习笔记】基础组件学习:Pipeline

在host文件里添加途中信息,可以避免运行代码下载模型时候报错。Transformers测试。

2023-11-24 16:57:00 943

原创 【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记

预训练语言模型(PLMs)是在大型文本语料库上通过自我监督学习方法进行训练的一种语言模型,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,虽然具有巨大参数的plm能够有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但也存在一定的局限性,

2023-11-15 17:35:13 637

原创 【Transformer从零开始代码实现 pytoch版】Transformer架构各个部件详细分析代码合集

【Transformer从零开始代码实现 pytoch版】(一)输入部件:embedding+positionalEncoding【Transformer从零开始代码实现 pytoch版】(二)Encoder编码器组件:mask + attention + feed forward + add&norm【Transformer从零开始代码实现 pytoch版】(三)Decoder编码器组件:多头自注意力+多头注意力+全连接层+规范化层【Transformer从零开始代码实现 pytoch版】(四)输出部件:

2023-11-15 09:46:50 186

原创 【Transformer从零开始代码实现 pytoch版】(六)模型基本测试运行

【代码】【Transformer从零开始代码实现 pytoch版】(六)模型基本测试运行。

2023-11-14 16:40:21 486

原创 【Transformer从零开始代码实现 pytoch版】(五)总架构类的实现

""" 编码器解码器架构实现、定义了初始化、forward、encode和decode部件"""""" 传入五大部件参数:param encoder: 编码器:param decoder: 解码器:param source_embed: 源数据embedding函数:param target_embed: 目标数据embedding函数:param generator: 输出部分类被生成器对象"""self.generator = generator # 生成器后面会专门用到。

2023-11-13 17:47:12 209

原创 【Transformer从零开始代码实现 pytoch版】(四)输出部件:Linear+softmax

通过对上一步的线性变化得到指定维度的输出,也就是转换维度的作用。其中,softmax层的作用是使最后一维的向量中的数字缩放到0-1的概率值域内,并满足他们的和为1。线性层+softmax层。

2023-11-13 10:37:24 183

原创 【Transformer从零开始代码实现 pytoch版】(三)Decoder编码器组件:多头自注意力+多头注意力+全连接层+规范化层

作为解码器的组成单元,每个解码器层进行特征提取操作,即解码过程。

2023-11-13 10:21:13 235

原创 【Transformer从零开始代码实现 pytoch版】(二)Encoder编码器组件:mask + attention + feed forward + add&norm

编码器部分:掩码张量:掩代表遮掩,码就是我们张量中的数值,它的尺寸不定,里面一般只有1和0的元素,代表位置被遭掩或者不被遮掩,至于是0位置被遮掩还是1位置被遭掩可以自定义,因此它的作用就是让另外一个张量中的一些数值被遮掩,也可以说被替换它的表现形式是一个张量。作用: 通过预测遮掩的内容,来评估模型的预测能力。在transformer中,掩码张量的主要作用在应用attention时,有一些生成的attention张量中的值计算有可能已知了未来信息而得到的,未来信息被看到是因为训练时会把整个输出结果都一次性进

2023-11-09 14:07:59 953

原创 【Transformer从零开始代码实现 pytoch版】(一)输入部件:embedding+positionalEncoding

因此,需要想办法加入词序之间的信息,就有了Positional Encoding.。

2023-11-07 18:01:29 498

原创 NLP常见任务的分类指标

自然语言处理(NLP)任务的评估指标因任务类型和目标而异。

2023-11-06 14:43:39 881

原创 【t5 pytorch版源码学习】t5-pegasus-pytorch源码学习

所有自定义的数据集类都需要继承自 Dataset 类,并实现其中的抽象方法。Dataset 类的主要作用是提供对数据集进行加载、处理和索引的功能,以便在训练、验证或测试过程中使用。通过使用 Dataset 类,可以将数据集封装为一个可迭代的对象,便于与数据加载器(DataLoader)结合使用,实现数据的批处理和并行加载。

2023-11-03 09:48:06 1540 2

原创 使用langchain-chatchat里,faiss库中报错: AssertionError ,位置:assert d == self.d

在这里插入图片描述](https://img-blog.csdnimg.cn/9aa903a00c5349aeaa1f45cb。里的info.db,如果还是不行,就删除整个项目,重新git clone。删除项目后,再次尝试,成功。

2023-10-21 17:34:25 817

原创 12、动手学深度学习——循环神经网络从零实现+Pytorch内置函数实现:代码详解

高级API提供了循环神经网络的实现。我们构造一个具有256个隐藏单元的单隐藏层的循环神经网络层rnn_layer。事实上,我们还没有讨论多层循环神经网络的意义。现在仅需要将多层理解为一层循环神经网络的输出被用作下一层循环神经网络的输入就足够了。我们使用张量来初始化隐状态,它的形状是(隐藏层数,批量大小,隐藏单元数)。通过一个隐状态和一个输入,我们就可以用更新后的隐状态计算输出。需要强调的是,rnn_layer的“输出”(Y)不涉及输出层的计算: 它是指每个时间步的隐状态,这些隐状态可以用作后续输出层的输入。

2023-07-20 20:56:32 479 2

原创 11、动手学深度学习——语言模型和数据集:代码详解

我们了解了如何将文本数据映射为词元,以及将这些词元可以视为一系列离散的观测,例如单词或字符。假设长度为T的文本序列中的词元依次为x1​x2​xT​。于是,xt​1≤t≤T)可以被认为是t。在给定这样的文本序列时,语言模型(language model)的目标是估计序列的联合概率Px1​x2​xT​例如,只需要一次抽取一个词元xt​∼Pxt​∣xt−1​x1​,一个理想的语言模型就能够基于模型本身生成自然文本。

2023-07-18 20:40:40 2579 2

原创 10、动手学深度学习——文本预处理:代码详解

一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。本节中,我们将解析文本的常见预处理步骤。

2023-07-17 21:43:43 589 1

原创 9、动手学深度学习——使用块的网络(VGG)

虽然AlexNet证明深层神经网络卓有成效,但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。在下面的几个章节中,我们将介绍一些常用于设计深层神经网络的启发式概念。与芯片设计中工程师从放置晶体管到逻辑元件再到逻辑块的过程类似,。研究人员开始。使用块的想法首先出现在牛津大学的视觉几何组(visual geometry group)的VGG网络中。通过,可以很容易地在任何现代深度学习框架的代码中实现这些重复的架构。而。

2023-07-05 20:50:16 498

原创 8、动手学深度学习——现代卷积神经网络:AlexNet

AlexNet中神经网络有6000万个参数和650,000个神经元,由五个卷积层组成,其中一些层后面是最大池层,还有三个全连接层,最后是1000路softmax。为了使训练更快,我们使用了非饱和神经元和非常有效的卷积运算GPU实现。为了减少全连接层中的过度拟合,我们采用了一种最近开发的正则化方法,称为“dropout”,该方法被证明非常有效。

2023-07-05 19:21:18 696

原创 7、动手学深度学习——卷积神经网络:基础部件+LeNet

通过逐渐聚合信息,生成越来越粗糙的映射,最终实现学习全局表示的目标,同时将卷积图层的所有优势保留在中间层。此外,

2023-07-04 16:29:01 906

原创 6、动手学深度学习——多层感知机:数值稳定性和模型初始化

考虑一个具有L层、输入x和输出o的深层网络。每一层l由变换fl​定义,该变换的参数为权重Wl,其隐藏变量是hl(令h0xhlfl​hl−1因此ofL​∘∘f1​x如果所有隐藏变量和输入都是向量,我们可以将o关于任何一组参数Wl∂Wl​oMLdef∂hL−1​hL​​⋅⋅Ml1def∂hl​hl1​​vldef∂Wl​hl​​换言之,该梯度是L。

2023-06-30 17:36:01 268

原创 5、动手学深度学习——多层感知机:过拟合解决方法:权重衰退、丢弃法

同样,我们使用Fashion-MNIST数据集。我们定义具有两个隐藏层的多层感知机,每个隐藏层包含256个单元。我们可以将暂退法应用于每个隐藏层的输出(在激活函数之后),并且可以为每一层分别设置暂退概率: 常见的技巧是在靠近输入层的地方设置较低的暂退概率。下面的模型将第一个和第二个隐藏层的暂退概率分别设置为0.2和0.5, 并且暂退法只在训练期间有效。

2023-06-29 11:03:11 371

原创 4、动手学深度学习——多层感知机:模型选择、欠拟合和过拟合

训练误差(training error)是指,。泛化误差(generalization error)是指,,泛化误差体现出了模型的泛化能力。

2023-06-28 12:52:01 408

原创 3、动手学深度学习——多层感知机:多层感知机的实现(从零实现+内置函数实现)

多层感知机

2023-06-27 12:27:14 1049

物体运动终端检测系统设计.pdf

本文详细的书写了如何实现使用树莓派3B系列作为硬件,QT平台作为软件设计开发了运动检测终端,使用ADXL345三轴加速度传感器来采集物体的运动加速度,通过卡尔曼滤波算法对所采集的数据进行预处理,再利用加速度与相对倾角公式得到了物体运动过程中相对于自然坐标系的倾角角度。通过调用QCustomplot库将加速度数据转换为二维坐标系下的曲线进行动态实时的可视化呈现,同时也可将加速度曲线图存储到本地文件夹内。在数据的三维可视化方面,使用OpenGL将所获得的倾角数据作为参数从而构建出三维物体动态实时变化的运动姿态。 实际完成的项目,根据步骤可以实现。(wangxingding)

2021-05-18

sensor_data-Copy1.csv

该.csv文件可被作为car-sensor模拟数据,可用来作车联网项目的模拟数据进行测试。

2020-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除