自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 Leetcode刷题笔记6:哈希表1

当需要查询一个元素是否出现过,或者一个元素是否在集合里的时候,就要第一时间想到哈希法。本题需要一个集合来存放遍历过的元素,然后在遍历数组的时候去询问这个集合,某元素是否遍历过。此时就要选择另一种数据结构:map ,map是一种key-value的存储结构,可以用key保存数值,用value在保存数值所在的下标。它将第一个参数除以第二个参数,并返回一个包含两个值的元组,第一个值是整数除法的商,第二个值是整数除法的余数。函数是一个内置函数,用于执行整数的除法和取余运算,并以元组的形式返回结果。

2024-05-29 11:51:14 696

原创 Leetcode刷题笔记4:链表基础2

leetcode刷题笔记记录,本篇博客记录链表基础2部分的题目,主要题目包括:Python中,对于一个链表的节点定义非常简单,只要包含数据和指针字段即可,如:Leetcode 24 两两交换链表中的节点题目描述给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。示例 1:提示:这道题目还是可以通过添加一个虚拟头结点的方式完成,在head前面新建一个dummpy_head节点指向head,之后,使用三个指针,分别标记前一个

2024-05-25 10:33:39 290

原创 Leetcode刷题笔记3:链表基础1

leetcode刷题笔记记录,本篇博客记录链表基础1部分的题目,主要题目包括:链表是一种通过指针串联在一起的线性结构,每一个节点由两部分组成,一个是数据域一个是指针域(存放指向下一个节点的指针),最后一个节点的指针域指向null(空指针的意思)。链表的入口节点称为链表的头结点也就是head。常见的链表类型包括:单链表中的指针域只能指向节点的下一个节点。双链表中每一个节点有两个指针域,一个指向下一个节点,一个指向上一个节点。双链表既可以向前查询也可以向后查询。循环链表就是链表首尾相连。Python中,对于一个

2024-05-23 13:07:41 860

原创 Leetcode刷题笔记2:数组基础2

如果只用一个for循环来表示滑动窗口的起始位置,那么如何遍历剩下的终止位置?这个题目的过程就是模拟,需要考虑好边界值条件,一个解题的关键是处理好区间选取,为了代码统一和边界值统一考虑,应选取左开右闭的区间,即每一行列都只考虑起始位置点,而不考虑终止位置点。暴力解法中一个for循环滑动窗口的起始位置,一个for循环为滑动窗口的终止位置,那么滑动窗口如何用一个for循环来完成这个操作呢。最简单的解法为暴力解法,但Leetcode上已经提示,Python的暴力解法一定会超时,所以这里使用滑动窗口来解决这个问题。

2024-05-22 16:09:34 543

原创 Leetcode刷题笔记1:数组基础1

一开始令两个指针都为0,然后,先移动fast,如果nums[fast]不是要删除的值val,那么移动slow,然后将fast位置的值赋给slow位置。双指针(Two Pointers):指的是在遍历元素的过程中,不是使用单个指针进行访问,而是使用两个指针进行访问,从而达到相应的目的。对于第一种闭区间的情况,由于左右都可以取到,所以while中的判断条件应该是 left

2024-05-18 13:08:17 903

原创 Phi-3:手机上就能运行的强力语言模型

本文介绍Phi-3-mini模型,拥有3.8B参数且训练样本为3.3T词元(token),其整体性能与Mixtral 8x7B和GPT-3.5等模型相媲美。Phi-3的创新完全体现在用于训练的数据集上,是phi-2所使用数据集的扩大版本,由严格筛选的网络数据和合成数据组成。该模型还进一步针对健壮性、安全性和聊天格式进行了调整。本文还提供了一些初始的参数缩放结果,使用了为4.8T词元训练的7B和14B模型,分别称为phi-3-small和phi-3-medium,两者都比phi-3-mini更加强大。

2024-05-07 14:57:51 641

原创 Phi-2:小型语言模型令人惊人的能力

与传统的网络数据相对比,生成和利用具有“教科书质量”的数据;吸收扩展规模的最佳实践,以增强整体性能。

2024-05-06 10:27:53 880 1

原创 高质量数据至关重要:phi-1.5论文笔记

本文继续探讨较小语言模型的能力,这一探索由TinyStories(只有10M参数规模,却能够产生连贯英语)开始,本文是对phi-1(仅1.3B参数但Python编码性能接近最先进水平)的后续工作。phi-1提出利用LLM生成“教科书质量”的数据作为增强学习过程的一种方式。本文聚焦于自然语言的常识推理,并创建了一个新的13亿参数的模型,命名为phi-1.5,其在自然语言任务上的性能可与大5倍的模型相媲美,并且在更复杂的推理任务(如小学数学和基本编码)上超过了大多数非前沿的LLM。

2024-04-28 14:49:59 1454

原创 CLIP论文笔记:Learning Transferable Visual Models From Natural Language Supervision

本文探索了是否可以将自然语言处理中任务无关的网络规模预训练的成功转移到其他领域。作者发现采用这种方法在计算机视觉领域产生了类似的行为,并讨论了这一研究方向的社会影响。为了优化它们的训练目标,CLIP模型学习在预训练期间执行多种任务。然后,可以通过自然语言提示利用这种任务学习,实现对许多现有数据集的零样本转移。在足够的规模下,这种方法的表现可以与特定任务的监督模型竞争,尽管仍有很大的改进空间。

2024-04-26 10:46:50 843 1

原创 高质量数据is all you need:Textbooks Are All You Need论文笔记

深度学习领域对缩放定律(Scaling Law)的探索导致了现有大语言模型(LLM)性能的迅速提升。本文探索了另一个可以改进的方向:数据的质量。Eldan 和 Li 最近在 TinyStories(一个高质量的合成数据集,用于教导神经网络英语)上的工作表明,高质量数据可以显著改变缩放定律的形态,潜在地使得可以用更精简的训练/模型来达到大规模模型的性能。本文展示了高质量数据甚至可以改进大型语言模型 (LLMs) 的最先进水平,同时大幅减小数据集规模和训练计算。

2024-04-25 17:22:45 1031 1

原创 Llama 3问世:迄今为止的最强开源大语言模型

最近Meta发布了其研发的第三代开源大语言模型Llama 3,并宣称Llama 3为迄今为止的最强开源大语言模型,本文对其进行简要学习记录。。

2024-04-24 10:29:49 593

原创 非root用户安装git lfs(git大文件)命令记录

最近在看LLAMA2的模型,想直接从Huggingface下载模型到本地,但是却发现服务器上没有安装git lfs命令。查询了一些资料完成了非root用户安装git lfs命令的操作,特此记录。

2024-03-25 17:52:57 589

原创 论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。

2024-03-18 15:42:10 1354

原创 论文笔记:Efficient Training of Language Models to Fill in the Middle

本文展示了一种有效的方法,使自回归语言模型能够学习填充文本中的空白部分。这一方法基于一个简单的数据集转换策略,即将文档中部的文本移至末尾。作者通过大量研究证明,这种转换对于原始的从左至右生成模型能力没有负面影响,这一点通过多种规模的困惑度和抽样评估得到了验证。鉴于训练模型以填补中间部分的有效性、简易性和高效性,作者建议未来的自回归(AR)语言模型应默认采用此种训练方法。文章还对数据转换频率、转换结构和选择填充跨度的方法等关键超参数进行了详细剖析,并提出了一套强有力的默认设置和最佳实践指南。

2024-03-09 16:20:37 1354

原创 从生成到调试:大型语言模型的自我演进之旅

代码生成一直是一个长期存在的挑战,应用范围广泛,包括从自然语言到代码的合成、示例编程以及代码翻译。近期的大型语言模型在这一领域取得了显著的进步,但对于复杂的编程任务,一次性生成正确的代码依然具有挑战性。因此,一些研究通过设计程序修复方法来改善代码生成的性能。即使是人类程序员,第一次尝试写出的代码也不一定准确。与其完全放弃错误代码,人们通常会检查代码并调查执行结果,然后进行更改以解决实现错误。因此,先前的工作提出了深度学习技术来修复预测的代码。

2024-03-08 18:27:06 1141

原创 Self-evolve——基于大语言模型的代码演进框架

本研究提出了一个名为Self-evolve的框架,它旨在通过大型语言模型(LLMs)实现代码生成的进化。这一框架在Text-to-Code任务中引入了一种全新的处理流程,以提高LLMs在代码生成方面的效率和准确性。在之前,尽管LLMs在代码生成方面已取得显著成效,但它们仍然面临着一次性准确生成代码的挑战。Self-evolve通过其独特的双阶段流程,有效地解决了这一问题。在第一阶段,该框架利用LLMs从输入的提示中提取知识,生成中间代码。

2024-03-07 15:54:33 945

原创 Text-to-SQL任务中的思维链(Chain-of-thought)探索

本文系统地探讨了CoT风格提示方法,以增强LLMs在文本到SQL解析任务中的推理能力。作者设计了推理步骤,以适用于两种现有方法——思维链和从简到繁提示,并提出了新的问题分解提示方法。通过全面的实验展示了:(1) 在文本到SQL解析中,迭代式提示可能并非必要;(2) 使用详细的推理步骤(在思维链中)或中间SQL查询(在从简到繁提示中)容易出错,从而加剧了错误传播问题。本文的问题分解提示是减轻LLMs多步推理中错误传播问题的首次尝试之一,作者强调这个问题是一个有意义的未来研究方向。

2024-03-06 18:03:50 989

原创 论文笔记:Code Llama: Open Foundation Models for Code

Code Llama是开源模型Llama 2在代码领域的一个专有模型,作者通过在代码数据集上进行进一步训练得到了了适用于该领域的专有模型,并在测试基准中超过了同等参数规模的其他公开模型。

2024-03-05 11:17:55 1390 1

原创 LLM少样本示例的上下文学习在Text-to-SQL任务中的探索

本研究探索了用于文本到SQL领域语义解析任务的各种提示设计方法。本文提出了一种利用示例的SQL语法结构来选择示例演示的方法,强调多样性和相似性作为采样目标。此外,本文发现大型语言模型(LLMs)从与数据库相关的知识增强中受益。未来的研究可以基于本文的发现来检验本文方法在其他领域的可转移性。通过持续改进LLMs在语义解析方面的能力,本文旨在为开发更准确、更稳健和更易理解的问答系统做出贡献。

2024-02-07 17:54:53 1342

原创 EMNLP 2023精选:Text-to-SQL任务的前沿进展(下篇)——Findings论文解读

本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关(通过搜索标题关键词查找得到,可能不全)的论文,共计12篇,包含5篇正会论文和7篇Findings论文,以下是对这些论文的略读,某几篇也有详细的笔记(见链接)。

2024-02-06 14:13:50 1421 1

原创 EMNLP 2023精选:Text-to-SQL任务的前沿进展(上篇)——正会论文解读

本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关(通过搜索标题关键词查找得到,可能不全)的论文,共计12篇,包含5篇正会论文和7篇Findings论文,以下是对这些论文的略读,某几篇也有详细的笔记(见链接)。

2024-02-05 18:35:37 1143

原创 从领域外到领域内:LLM在Text-to-SQL任务中的演进之路

本研究深入分析了领域内演示示例的关键方面,并确定SQL分布为关键因素。本文提出了一个新颖的演示选择框架ODIS,它利用基于SQL的检索方法结合领域外演示和领域内合成示例的优势。在不同的大型语言模型上取得的显著性能表明,与基线和最新方法相比,本文的框架非常有效。统一检索策略:将探索一个统一的检索策略,打破领域外和领域内合成数据之间的界限,实现它们之间的自动选择。提升初始模型性能:考虑使用更高性能的初始文本到SQL模型以进一步提高性能,如第5.2节通过使用oracle SQL查询所展示的。参数高效微调。

2024-02-04 16:01:52 1402

原创 QPL:一种新型的Text-to-SQL任务中间表示形式

本文提出了一种叫做Query Plan Language (QPL)的语言,用来将复杂SQL语句分解为更加简单的子语句。QPL具有以下优势:1)可以转述为简单问题,从而创建了一个复杂问题,分解问题的数据集。在这个数据集上训练,获得了一个敏感于数据库模式的数据检索问题分解器。2)QPL对于非专家处理复杂查询更易于接近,使语义解析器的输出更易于理解。

2024-02-02 11:07:33 1123

原创 论文笔记:SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data

这项研究介绍了“SQLPrompt”,一种针对大型语言模型(LLMs)中的Text-to-SQL任务进行少标签数据下的上下文提示的方法。SQLPrompt通过创新的提示设计、基于执行一致性的解码策略(选择最一致的执行结果SQL),以及“MixPrompt”和“MixLLMs”方法(增加不同提示设计和基础模型中SQL提议的多样性)来提高少示例提示的能力。结果表明,SQLPrompt在少标签数据的上下文学习中表现优异,与使用数千标签数据进行微调的最新技术相比,缩小了差距。

2024-02-01 16:22:58 1174

原创 DAIL-SQL:LLM在Text-to-SQL任务中的详细评估

Text-to-SQL任务是将自然语言问题转换成SQL查询,这对自然语言处理和数据库领域都是一项挑战。近年来,大型语言模型(LLMs)成为Text-to-SQL任务的新范式。特别是,GPT-4实现了在Spider排行榜上85.3%的执行准确率。尽管已有研究取得进展,但LLM基础的Text-to-SQL解决方案的提示工程缺乏系统性研究。目前研究集中在问题表示、示例选择和示例组织上,以适应LLM的偏好和性能。与OpenAI LLMs相比,开源LLMs的性能和上下文理解能力相对有限,需要通过监督式微调来提升。

2024-01-31 10:48:44 1679

原创 Huggingface上传自己的模型

Huggingface transformers是一个非常棒的NLP项目,它用pytorch实现了几乎所有的主流预训练模型供研究者学习交流。同时,该项目允许用户上传自定义的预训练模型进行发布。这里简要记录一下上传流程。

2024-01-27 11:23:48 2066

原创 Codalab平台学习笔记

Codalab是一个用于复现深度学习研究的协作平台,由斯坦福大学和微软合作开发。其核心理念是在云端运行机器学习实验,像jupyter notebook一样在数字实验室中管理实验,同时可以发布实验的 worksheet 以便其他人可以复现实验结果。Colab官网展示的三个步骤为:上传文件:首先将代码和数据集文件上传至平台。进行实验:运行代码,进行训练或者测试。

2024-01-18 16:59:29 667

原创 SParC数据集介绍

SParC是一个跨领域的多轮Text-to-SQL数据集。它包含有4298个问题轮次,大约有12k+的自然语言问句到SQL标注的Question-SQL对。这些问题来自于138个不同领域的200个复杂数据库。这是一个多轮对话形式的Text-to-SQL解析,模型需要考虑复杂的上下文依赖关系;由于对话的引入,使得数据集具有更大的语义多样性;具有跨域特性,即验证和测试是在与训练集完全不同的数据库schema上进行,因而模型需要有足够强的泛化性能。如下是一次完整的多轮对话示例。

2023-12-26 16:27:59 1056

原创 Huggingface T5模型代码笔记

本文档介绍来源于Huggingface官方文档,参考T5。T5模型是由Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu.在论文中提出的。该论文摘要如下:迁移学习在自然语言处理(NLP)中已经成为一种强大的技术。迁移学习是指,模型首先在数据丰富的任务上进行预训练,然后再对下游任务进行微调。

2023-12-23 19:18:25 1421 2

原创 Text2SQL学习整理(五)将Text-to-SQL任务与基本语言模型结合

HybridSQL将Text-to-SQL定义为一个多任务学习问题,可以通过适应预先训练的Transformer模型来解决。X-SQL中,模型直接对全表进行了序列化处理,在后续预测子任务中,需要进行Attentive pooling。如下图所示,HydraNet的一个创新点在于它将表示层的输入变成了每个列的列文本和query文本组成的对,这样对于每个列都是bert标准的sentence pair输入。最大化利用了预训练模型的性能(BERT、RoBERTa等)。

2023-12-22 17:06:55 1695

原创 Text2SQL学习整理(四)将预训练语言模型引入WikiSQL任务

本文介绍了两个借助预训练语言模型BERT(MT-DNN)来表示schem和Question之间上下文关系表示的方法,通过预训练语言模型强大的表示能力,模型第一次在数据集上的表现超越了人类。足以见证当今NLP技术发展之迅速。

2023-12-20 21:11:13 1601

原创 Text2SQL学习整理(三)SQLNet与TypeSQL模型

SQLNet模型是紧随WIkiSQL数据集之后的一个比较知名的Baseline。由于WikiSQL数据集中的SQL比较简单,如下图所示为一个WIkiSQL中的示例,因而SQLNet将预测一个SQL语句转换为预测构成SQL语句的六部分任务分别解决。如下图所示,SQLNet将WikiSQL中的SQL语句分为以下几个部分:包括SELECT后的聚合符、使用的column、WHERE子句后的column、操作符OP以及VALUE等。

2023-12-20 21:08:19 1236

原创 Text2SQL学习整理(二) WikiSQL数据集介绍

WikiSQL数据集是一个多数据库、单表、单轮查询的Text-to-SQL数据集。它是Salesforce在2017年提出的大型标注NL2SQL数据集,也是目前规模最大的NL2SQL数据集。它包含了 24,241张表,80,645条自然语言问句及相应的SQL语句。

2023-12-18 12:00:35 1568

原创 Text2SQL学习整理(一) 综述

Text2SQL是近年来NLP领域一个比较热门的研究方向,该任务历史悠久,应用和落地性很强。该任务是在已知数据库的表名、列名其从属关系(这些统称为数据库的Schema)的前提下,将人类的自然语言问句(Question)转化为对应的数据库查询SQL语句。

2023-12-17 12:10:54 1120 1

原创 论文笔记:CQR-SQL: Conversational Question Reformulation Enhanced Context-Dependent Text-to-SQL Parsers

对于多轮的Text-to-SQL任务,现有的方法通常专注于充分利用历史上下文或以前预测的SQL来进行当前的SQL解析,而忽略了显式地理解模式和会话依赖关系,如共同引用、省略和用户焦点变化。而这些则是多轮Text-to-SQL中最复杂的挑战,下图1展示了关于这些语言现象的示例:之前的工作大都是简单的将多轮中的各个句子进行拼接(下图2a),就得到了不错的效果,但这些端到端的方法缺乏对这些上下文依赖现象的关注。

2023-03-24 22:46:43 536 4

转载 解决Github报错HTTP/2 stream 1 was not closed cleanly before end of the underlying stream

Git拉取github代码报错: HTTP/2 stream 1 was not closed cleanly before end of the underlying stream

2023-02-18 21:23:25 9010 2

原创 Huggingface Trainer报错RuntimeError: Expected all tensors to be on the same device

Huggingface Trainer报错RuntimeError: Expected all tensors to be on the same device

2023-01-30 13:16:13 846

原创 Macbook Pro M1下Java安装记录

本文记录了如何在MacBook Pro M1上进行Java的安装,所安装版本是JDK 1.8。

2022-10-16 22:10:47 1569 1

原创 论文笔记:HIE-SQL:History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing

论文笔记:HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing目录论文笔记:HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing导语摘要1 简介2 相关工作3 HIE-SQL3.1 预备知识3.2 Multimodal Encod

2022-04-24 15:59:15 850

原创 论文笔记:Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL

论文笔记:Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL目录论文笔记:Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL导语摘要关键词1 简介2 相关工作2.1 语义解析和Text-to-SQL任务2.2 多轮对话Text-to-SQL3 问题定义4

2022-04-23 22:10:16 421

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除