- 博客(91)
- 收藏
- 关注
原创 【论文浅尝】SPARKLE: Enhancing SPARQL Generation withDirect KG Integration in Decoding
此外,我们利用知识库的互联结构在解码头部实体之后的关系,相应地,解码关系之后的尾部实体。例如,如果模型正在为头部实体Michael_Bay生成一个关系,那么它将从候选关系中排除关系write,因为在知识图中没有write与Michael_Bay的关联,如第一个图所示所示。在两种情况下,我们可以利用知识库的结构信息。我们的方法不仅保证了生成的三元模式的语法准确性,而且使它们与底层知识库的语义结构保持一致。在这种表示法中,s用于标记头部实体的第一个令牌的索引,使模型能够在正在生成的查询中准确地识别实体。
2024-08-12 11:07:53 540
原创 【论文浅尝】KBLLaMA: A Learn-Then-Reason Model Towards Generalizationin Knowledge Base Question Answering
然后,我们使用经典的K-Means算法来基于它们的嵌入对关系进行聚类,其中聚类的数量被设置为知识库本体中的类的数量。聚类之后,我们从每个聚类中随机选择一个关系子集,创建一个候选关系池。随后,从这个池中,我们对多个关系进行采样,以构建关系的组合。
2024-08-09 16:36:29 953
原创 【Langchain大语言模型开发教程】基于Langchain的私人助手
终于学习完了Langchain框架的核心内容,最后基于langchain技术实现一个个人知识库助手的小项目,将这些内容串联起来,在实际中进行应用。1、langchain框架2、chroma向量数据库3、embedding模型(bge-large-zh-v1.5、bge-large-en-v1.5)4、rerank模型(bge-reranker-v2-m3)5、gradio前端框架6、LLM(GLM4系列模型)我们使用langchain提供的文本加载器来进行各种类型数据的加载;
2024-08-05 22:47:09 1074
原创 【Langchain大语言模型开发教程】代理
我们自定义乘法工具、加法工具和指数工具,然后我们初始化一个python解释器工具、搜索工具和维基百科检索工具;我们再用一下这个duckduckgosearch这个工具,问一个计算机考研408都包含那些内容;我们从langchain提供的这个网站中获取一个已经写好的prompt;一开始它去查了维基百科发现没有,然后用了duckduckgosearch;我们先来一个数学问题:把3的五次方乘以12加3的和,然后把整个结果平方。我们创建一个agent和一个agent执行器;初始化我们的大语言模型;
2024-07-25 16:06:53 342
原创 【Langchain大语言模型开发教程】评估
这里我们打印一下这个生成的example,发现是一个列表长下面这个样子;4、初始化一个LLM并创建一个RetrievalQ链;让大语言模型对实际答案和预测答案进行对比并给出一个评分;让大语言模型来为我们每个example来生成答案;我们再次执行来查看chain中的细节;那我们是不是可以使用语言模型来评估呢;3、创建向量数据库(内存警告⚠);最后,我们可以打印一下看看结果;所以这里我们需要进行一步提取;1、引包、加载环境变量;我们初始化一个评估链;
2024-07-24 15:54:34 645
原创 【Langchain大语言模型开发教程】基于文档问答
该chain包含三个主要的参数,其中llm参数是我们的智谱GLM4, retriever参数设置设置为前面我们由DocArrayInMemorySearch创建的retriever,最后一个重要的参数为chain_type,该参数包含了四个可选值:stuff,map_reduce,refine,map_rerank,接下来我们简单了解一下这些选择的区别;刚刚我们输入了一个问题并在向量数据库中检索到了一些相关信息,接下来我们将这些信息和问题一起输入到大语言模型中,使用markdown的格式展示一下效果;
2024-07-21 19:17:37 792
原创 【Langchain大语言模型开发教程】链
当我们的任务可能更加复杂的时候,我们可能就需要一个路由链,来帮我们路由到一个特定的子链上。这里,我们定义了物理,数学,历史,计算机科学的prompt template。我们可以输入不同的question,然后追踪一下我们选择了那个prompt。这里我们的GLM4的输出和GPT就不太一样了,这里给出了很多的选择。我们实例这个单一顺序链 ,执行以下,这里的效果和gpt差的还是有一些。这里我们定义两条链,他们是一个顺序执行的关系。接下来我们定义一个目标链 和默认链。我们初始化我们的这个顺序链。
2024-07-20 16:19:29 410
原创 【Langchain大语言模型开发教程】记忆
同理哈,这个函数的作用就是,我们会将历史的对话信息进行总结然后存在我们的记忆单元中,由于这里同样涉及到token的计算,所以这里也是无法正常运行的了。"},构建一个对话模型 (verbose设置为true可以查看到我们历史的一些信息)llm=llm,尝试进行提问")
2024-07-20 11:51:55 1098
原创 【Langchain大语言模型开发教程】模型、提示和解析
2、 使用Langchain的模板功能,将需要改动的部分抽象成变量,在具体的情况下替换成需要的内容,来达到模板复用效果。我们打印他的类型的时候,发现这其实是一个字符串类型,这是不能根据key来获取value值的。来作为我们的基座大模型,通过langchain的chatOpenAI接口来实例化我们的模型。3、使用Langchain提供的解析功能,将LLM的输出解析成你需要的格式,如字典。我们现在获得了某个商品的用户评价,我们想要提取其中的关键信息(下面这种形式)这里我们给出一个回复的内容和转化的格式。
2024-07-19 20:16:26 639
原创 【论文浅尝】Efficient Question-Answering with StrategicMulti-Model Collaboration on Knowledge Graphs
虽然大型语言模型(llm)在自然语言处理方面表现出了卓越的能力,但它们在涉及知识图(KGs)的复杂、多步骤推理任务中表现得很吃力。现有的集成llm和KGs的方法要么没有充分利用llm的推理能力,要么由于紧密耦合而导致计算成本过高。为了解决这些限制,我们提出了一个名为EffiQA的新型协作框架,它可以通过迭代范式在性能和效率之间取得平衡。
2024-06-19 22:29:42 609 2
原创 【论文浅尝】CODEIE: Large Code Generation Models are Better Few-ShotInformation Extractors
在本文提出将结构化输出转换为代码而不是自然语言的形式,并利用代码的生成法学硕士(code -LLMs),如Codex来执行IE任。与nl - llm相比,我们展示了代码- llm可以通过设计代码样式提示并将这些IE任务制定为代码生成任务来与这些IE任务很好地对齐。以下图中的示例输入“Steve在1998年成为Apple的CEO”为例,我们将其包装成一段Python代码,并将结构化实体输出制定为带有键“text”和“type”的Python字典。
2024-05-03 20:43:45 1069
原创 【论文浅尝】Large Language Models for Generative Information Extraction: A Survey
本文对生成式IE的LLM进行了全面的探索。使用两种分类法对现有的代表性方法进行分类:(1)众多IE子任务的分类法,旨在对可以使用llm单独或统一提取的不同类型的信息进行分类;(2)学习范式分类法,对利用llm生成IE的各种新方法进行分类。这种生成式IE调查主要涵盖了和的任务。这三种类型的IE任务以生成方式制定。给定一个输入文本其序列为n个标记X = [,…],],prompt P,目标提取序列Y = [,…
2024-05-02 18:35:10 954
原创 【论文浅尝】MobileLLM: Optimizing Sub-billion Parameter Language Modelsfor On-Device Use Cases
本文旨在解决移动设备上对高效大型语言模型(LLM)日益增长的需求,这种需求是由不断增加的云成本和延迟问题驱动的。我们专注于设计参数少于10亿的高品质LLM,这是移动部署的实用选择。与强调数据和参数数量在决定模型质量中的关键作用的普遍观点相反,我们的研究强调了模型架构对于十亿以下规模LLM的重要性。利用深度和精简架构,加上嵌入式共享和分组查询关注机制,我们建立了一个名为MobileLLM的强大基线网络,与之前的1.25亿/3.5亿最先进模型相比,其准确性提高了2.7%/4.3%。
2024-04-28 13:04:07 1128
原创 【论文浅尝】LLM as a System Service on Mobile Devices
由于功能更强大,对用户与设备交互的侵入性更强,LLM渴望在设备上执行以更好地保护用户隐私。在这项工作中,我们提出了一种新的移动AI范式:移动设备上的LLM as a system service(LLM AAS)。与以无状态方式执行的传统DNNs不同,这样的系统服务是有状态的:LLMs执行通常需要跨多个调用维护持久状态(主要是KV cache)。
2024-04-28 11:06:06 889
原创 【论文浅尝】Porting Large Language Models to Mobile Devices for Question Answering
移动设备上的大型语言模型(LLM)增强了自然语言处理,并支持更直观的交互。这些模型支持高级虚拟助理、语言翻译、文本摘要或文本中关键术语的提取(命名实体提取)等应用。LLMs的一个重要用例也是问答,它可以为大量的用户查询提供准确的和上下文相关的答案。由于典型智能手机的处理能力有限,当前移动设备上的LLM查询在云中处理,LLM输出被发送回设备。这是ChatGPT应用程序和大多数其他LLM支持的聊天应用程序的标准工作流程。
2024-04-27 13:07:35 1113 2
原创 【论文浅尝】Phi-3-mini:A Highly Capable Language Model Locally on Your Phone
phi-3-mini,一个3.8亿个参数的语言模型,训练了3.3万亿个token,其总体性能,通过学术基准和内部测试进行衡量,可以与Mixtral 8x7B和GPT-3.5等模型相媲美(在MMLU上达到69%,在MT-bench上达到8.38),它是足够小,可以部署在手机上。phi-3-mini模型是一个transformer-decoder架构,默认上下文长度为4K。作者还通过LongRope 引入了一个长上下文版本,它将上下文长度扩展到128K,称为phi-3-mini-128K。
2024-04-25 16:47:44 1481
原创 freebase一站式搭建流程
6、打开Freebase-Setup-master中的virtuoso.py修改virtuosoPath。2、进入 virtuoso-opensource/database 目录下配置。1、下载 virtuoso-opensource。4、下载Freebase-Setup。5、下载freebase data。
2024-04-23 19:28:28 405 4
原创 【论文浅尝】Pre-training Small Base LMs with Fewer Tokens
有趣的是,我们还观察到,使用Inheritune导出的这些较小的模型显示出较低的验证损失,而它们的相同大小的对应部件从头开始训练,训练步骤是训练步骤的两倍。(4)如果步骤3中我们的模型的验证损失比步骤2中的参考模型的验证损失更大,我们重新执行步骤3,并且将n的值增加2。本文研究了一种从现有的大型基础语言模型(LM)开始开发小型基础语言模型(LM)的简单方法的有效性:首先从较大的LM继承一些转换块,然后在非常小的原始预训练数据的子集(0.1%)上训练这个较小的模型。
2024-04-18 18:10:11 855
原创 基于Springboot+Vue+Spring-Security+高德地图API的校园出行管理系统
校园出行管理系统的开发旨在满足学校对学生出行的集中管理和统计需求,以减轻教职员工的工作压力。解决学校对学生请假出行管理的挑战。通过规范化的请假流程和实时监控,系统将能够更有效地管理学生的请假出行,提高管理效率,减轻教职员工的工作负担。
2024-04-17 21:46:23 816
原创 【论文浅尝】Pay More Attention to Relation Exploration forKnowledge Base Question Answering
xn},数据集形式化为D = {(Q, A)|(q1, a1), (q2, a2),…知识库形式化为G =〈e, r, e '〉|(e, e ')∈ξ,ξ和R分别表示所有实体和关系的集合,为了将三元组应用于下游任务,实体和关系应该首先嵌入为d维向量:V =〈Ve, Vr, Ve '〉|(Ve, Ve ')∈Vξ, Vr∈Vr}多跳推理往往受到弱监督的阻碍,为了克服这一限制,文中提出了一个多任务方案,通过预测最终答案的关系分布作为额外的指导,使用相同的推理架构和大多数共享参数。其中p(·)为得分函数。
2024-04-15 21:25:12 384
原创 【论文浅尝】RoCoIns: Enhancing Robustness of Large Language Modelsthrough Code-Style Instructions
自然语言固有的模糊性会使LLM对指令极其敏感,因为即使对指令进行轻微的修改也会导致性能大幅下降,代码格式的优势在于更具结构性并且不那么模糊。:功能函数可能包括子任务函数,然而子任务函数并不会被定义,仅仅通过其描述性的名称和参数将其功能传达给LLM。1、介绍了RoCoIns,这是一种新的方法,通过利用代码风格的指令来增强LLM抵抗文本对抗性攻击的鲁棒性。:通过为LLM提供一些演示输入输出对,它们可以预测未知输入的标签而无需更新参数。:注释提供任务描述,通常是自然语言指令的改写版本,包含了参数的描述。
2024-04-10 21:30:51 339
原创 ChatGLM-6B实战微调(P-tuning-v2、LORA)
LoRA核心思想是在原始预训练语言模型旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的 intrinsic rank(预训练模型在各类下游任务上泛化的过程其实就是在优化各类任务的公共低维本征(low-dimensional intrinsic)子空间中非常少量的几个自由参数)。在推理时,将左右两部分的结果加到一起即可,h=Wx+ABx=(W+AB)x,所以,只要将训练完成的矩阵乘积AB跟原本的权重矩阵W加到一起作为新权重参数替换原始预训练语言模型的W即可,不会增加额外的计算资源。
2024-04-07 10:55:48 1357 1
原创 基于SpringBoot+Vue+Mybatis的408刷题小程序管理端
系统主要采用spring boot作为后端框架,前端使用vue+elementUI,为408刷题小程序提供一个方面的管理和维护的任务,主要功能包括,对题目、章节、书目的添加、修改、删除、查询、启用等操作;对用户每日以及近七日内的数据进行可视化展示,方便进行分析等操作。
2024-03-24 14:42:39 1147
原创 【springcloud开发教程】spring cloud config——分布式配置
spring cloud config 为微服务架构中的微服务提供集中化的外部支持,配置服务器为各个不同微服务应用的所有环节提供了一个。并且可用通过git客户端工具来方便的管理和访问配置内容。4.这里我们需要将刚刚新建的项目clone到本地,复制SSH那个路径,这里可能clone失败,我们需要配置一个SSH的公钥。,它是一个独立的微服务应用,用来连接配置服务器并为客户端提供获取配置信息,加密,解密信息等访问接口。06、复制得到的公钥,在gitee中,设置->安全设置->SSH公钥->添加公钥。
2024-03-24 10:17:30 989
原创 springcloud +Vue 前后端分离的onlinejudge在线评测系统
用户可以在题库页看到本站提供的全部已启用的题目,每个题目系统都提供了通过率和题目难度,用户可以根据自己的学习阶段点击相应题目,进行做题,每道题目提供了测试和提交两种提交方式,点击测试按钮用户可以对自己的源代码就行调试,并和正确答案进行对比,点击提交按钮,系统将源代码编译成class文件并运行,将输出的结果和正确答案对比,判断答案是否正确,并将结果返回到用户前端。题库模块包含了用户查看题目,搜索题目,题目的热门推荐,题目的搜索,题目的提交和测试,查看当前题目提交过的记录等。
2024-01-18 21:30:51 1205 3
原创 【论文浅尝】 Can ChatGPT Replace Traditional KBQA Models?
在CoT的引导下,我们发现对于数字答案类型的问题上,效果是显著的,表明在思维链在大语言模型和与数字相关的问题上的重要性。在基于CoT思维链的提示下,大语言模型的性能有了进一步的提升,此外,大语言模型在一些经典数据集上达到的成绩超过当前SOTA模型的性能,说明了大语言模型的推理能力已经超过了传统的深度学习网络模型,由于大语言模型学习的知识并不是实时的,这也印证了之前提到的大语言模型在处理一些随着时间而发生改变的答案的问题时,无法给出答案的情况,并且为未来的研究提供了方向。测试用例的总数约为190000个。
2023-12-07 14:53:35 1161
原创 【pytorch】模型常用函数(conv2d、linear、loss、maxpooling等)
实例化网络模型,并将激活后得到的图片在tensorboard中展示。实例化网络模型,并将池化后得到的图片在tensorboard中展示。实例化网络模型,并将卷积后得到的图片在tensorboard中展示。实例化网络模型,定义损失函数和优化器(反向传播)从数据集中加载数据(batch_size=64)我们进行迭代,并记录损失值。建立最大池化层网络模型。建立2维卷积网络模型。建立激活函数网络模型。
2023-09-17 20:03:14 672
原创 【pytorch】数据加载dataset和dataloader的使用
下载这个CIFAR10这个数据集,通过tensorboard查看一下。我们从CIFAR10这个数据集中,每次加载64张图片。
2023-09-07 13:45:58 599 1
原创 【pytorch】tensorboard + transforms的使用
细心的小伙伴已发现了,上面已经使用了transforms了,我们在添加图片时,用到了ToTensor()这个函数。1. 加载一张图片转化为tensor类型,并通过tenboard可视化。简单来说就是将各种操作就行联合起来进行操作,注意操作顺序。用于归一化,使他的范数或者数值在一定的范围。将一个PIL类型转换成tensor类型;随机裁剪函数,看效果,这里只展示了一步。
2023-09-01 19:25:00 663
原创 背包DP-入门篇
在一个小山上,有个n个黄金和一个容量为w的背包,每块黄金有体积和价值两种属性,我们想要选若干黄金装入背包,使背包中黄金的总价值最大且不超过背包容量。当我们选择它时,我们需要换一个思路考虑,在所有的选法中,我们都选择了这块黄金,我们在所有的选法中,都减去这个黄金的,也就是从前。于是我们可以使用一维来存储,更新的时候直接更新掉就行,反正以后也用不到了。,当我们直接去掉第一维后,相当于所有的第一维都变成相同的了,但其实并不相同。在所有的选法中,对于第 i 块黄金,当我们不选择它时,层的更新,我们只用到了第。
2023-06-05 17:08:30 677 1
原创 【springcloud开发教程】路由网关——zuul
路由功能将外部请求转发到具体的微服务实例上,是实现外部访问统一入口的基础,而过滤器功能则负责对请求的处理过程进行干预,是实现请求校验,服务聚合等功能的基础。Zuul和Eureka进行整合,将Zuul自身注册为Eureka服务治理下的应用,同时从Eureka中获得其他服务的消息,使得以后的访问微服务都是通过Zuul跳转后获得。4.启动7001、hystrix_8001、zuul_9527、80进行测试。可以看到Zull路由网关被注册到Eureka注册中心。配置ignored—services:隐藏掉该服务。
2023-04-18 16:23:05 429 1
原创 【springcloud开发教程】服务熔断、降级——Hystrix
当整个微服务架构整体的负载超出了预设的上限阈值或即将到来的流量预计将会超过预设的阈值时,为了保证重要或基本的服务能正常运行,可以将一些不重要或不 紧急的服务或任务进行服务的 延迟使用 或 暂停使用。服务降级是指当服务器压力剧增的情况下,根据实际业务情况及流量,对一些服务和页面有策略的不处理,或换种简单的方式处理,从而释放服务器资源以保证核心业务正常运作或高效运作。多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的“扇出”,如果扇出的链路上。
2023-04-18 11:09:22 1571
原创 【springcloud开发教程】负载均衡——Feign(基于服务端)
在此基础上做了进一步的封装,由他来帮助我们定义和实现依赖服务接口的定义,在Feign的实现下,我们只需要创建一个接口并使用注解的方式来配置它 (类似以前Dao接口上标注Mapper注解,现在是一个微服务接口上面标注一个Feign注解),即可完成对服务提供方的接口绑定,简化了使用Spring Cloud Ribbon 时,自动封装服务调用客户端的开发量。但是在实际开发中,由于对服务依赖的调用可能不止一处,往往一个接口会被多处调用,所以通常都会针对每个微服务自行封装一个客户端类来包装这些依赖服务的调用。
2023-04-16 21:36:43 477
原创 【springcloud开发教程】负载均衡——Ribbon
电脑16G推荐:启动项目 7001(eureka注册中心)、7002(eureka注册中心)、7003(eureka注册中心)、8001(服务提供者)、8002(服务提供者)、8003(服务提供者)、80(服务消费者)。3.将springcloud-provider-dept-8001 的pom.xml 、mybatis、application.yml 同步复制到8002和8003项目下,修改端口号,数据库名、eureka的实例名。,它只是一个类库,集成于消费方进程,消费方通过它来获取到服务提供方的地址!
2023-04-16 09:00:13 527
原创 【springcloud开发教程】服务注册——Eureka
在云部署的环境下,因为网络问题使得zookeeper集群失去master节点是较大概率发生的事件,虽然服务最终能够恢复,但是,漫长的选举时间导致注册长期不可用,是不可容忍的。,几个节点挂掉不会影响正常节点的工作,剩余的节点依然可以提供注册和查询服务。3.修改application.yml的配置,以下为springcloud-eureka-7001配置,springcloud-eureka-7002/springcloud-eureka-7003同样分别修改为其对应的名称即可。CAP 原则指的是,这三个。
2023-04-10 21:51:02 680
原创 L2-023 图着色问题
图着色问题是一个著名的NP完全问题。给定无向图G=(V,E),问可否用K种颜色为V中的每一个顶点分配一种颜色,使得不会有两个相邻顶点具有同一种颜色?但本题并不是要你解决这个着色问题,而是对给定的一种颜色分配,请你判断这是否是图着色问题的一个解。
2023-03-18 20:27:15 772
原创 L2-017 人以群分
社交网络中我们给每个人定义了一个“活跃度”,现希望根据这个指标把人群分为两大类,即外向型(outgoing,即活跃度高的)和内向型(introverted,即活跃度低的)。要求两类人群的规模尽可能接近,而他们的总活跃度差距尽可能拉开。
2023-03-14 16:16:45 71
原创 L2-021 点赞狂魔
如果有并列,则输出标签出现次数平均值最小的那个,题目保证这样的用户没有并列。是不超过8个英文小写字母的非空用户名,1≤K≤1000,Fi(i=1,⋯,K)是特性标签的编号,我们将所有特性标签从 1 到 107 编号。
2023-03-11 10:48:06 178
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人