自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 资源 (3)
  • 问答 (4)
  • 收藏
  • 关注

原创 LLM之Agent落地篇

LLM之Agent初探LLM之Agent再探前面两篇文章主要是介绍了如何用LLM做个Agent的Demo,离实际的落地,还差了一大截,这篇文章就来讲讲Agent该如何落地。以下几个模块,是Agent在企业产品落地中必然会碰到的问题以上三个模块,仅仅提供一种思路,各位有更好的想法,可以在评论区留言讨论。暂时写到这儿了,有点流水账的感觉,很久没写了。

2024-08-08 17:47:32 369

原创 Text2SQL之Vanna优化

前阵子写了篇Text2SQL的简单介绍,发现其也是RAG只会,写下了Text2SQL之不装了,我也是RAG最近也一直在做Text2SQL的优化,于是把自己的一些心得,总结于这篇文章。提升RAG的效果,能一定程度上提升Text2SQL的效果,剩下的,就看LLM的能力了。

2024-06-17 21:24:04 477 2

原创 Text2SQL之不装了,我也是RAG

这是很典型的Text2SQL的应用场景了,为了实现这一需求,很容想到的是把创建的表和表的描述都放进prompt里,让LLM去根据表的结构生成SQL语句,再利用工具去执行SQL语句,拿到查询结果后,再丢给LLM,让LLM根据给定的内容回答问题。我这里没有对Query-SQL对中的SQL做检索,主要是考虑到用户的Query与SQL语句的相关性并不大,当然,获取数据这里修改成只计算Query的相关性时,你还需要对Query-SQL的向量化部分进行相应修改,应改成只对Query embedding。

2024-06-01 13:33:43 306

原创 垂域LLM训练经验之谈

全参 SFTLora SFTLora 继续预训练Llama pro 预训练 + SFT预训练数据:由SFT数据的Query 与 Answer 的拼接SFT数据:由GPT4根据垂域文档抽取问答对+人工挑选而来,大概20000条,其中包括公司的介绍自我认知数据:大概200条,从公开的自我认知数据整理而来匠数科技大模型sft数据集显卡训练框架基座模型Qwen1.5-7B1、全参微调学东西最快2、lora要学习垂域知识,得多训几个epoch才行,或者对数据集进行过采样。

2024-06-01 12:23:49 216

原创 Llama3-chinese: 大幅改进Llama3 中文能力

是以Meta-Llama-3-8B为底座,使用DORALORA+的训练方法,在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。

2024-04-22 13:26:05 5756 1

原创 Qwen-WisdomVast (千问-智瀚)

是以Qwen1.5-7B为底座,使用DORALORA+的训练方法,在100w高质量中文多轮SFT数据 + 20w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型,数学能力相比Qwen1.5-7B-Chat提升了5.16%,在HumanEval数据集上相比Qwen1.5-7B-Chat提升了12.8,在MBPP数据集上提升了11.6%,在BBH数据集上提升了12.44%,全部评测表现见下表。

2024-04-11 16:01:59 742

原创 deepspeed使用zero3 + offload报错:AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam

说是系统cuda和torch的cuda版本不匹配,我们直接改成不检查cuda版本。3、修改完后再次在命令行执行。输出以下内容表示大功告成。

2024-03-26 16:46:22 4305 9

原创 Facebook mms ASR 实践

先来看看mms(Massively Multilingual Speech)的介绍吧大规模多语言语音(MMS)项目通过建立一个支持超过1100种语言的单一多语言语音识别模型(比以前多10倍),能够识别超过4000种语言的语言识别模型(比以前多40倍),支持超过1400种语言的预训练模型,以及超过1100种语言的文本到语音模型,将语音技术从大约100种语言扩展到超过1000种。我们的目标是使人们更容易以他们喜欢的语言访问信息和使用设备。ASR支持4000多种语言,确实变态哈。

2024-03-03 18:36:17 527

原创 Fastwhisper + Pyannote 实现 ASR + 说话者识别

最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了,英文的话,还是非whisper莫属了,而且whisper很变态,粤语效果也还不错,因此,如果实际业务中需要涉及到不同的语言,还是更推荐whisper多一点faster-whisper是使用CTranslate2对OpenAI的Whisper模型的重新实现,CTranslate2是一个用于Transformer模型的快速推理引擎。

2024-03-03 18:08:22 6817 12

原创 LLM之Agent再探

LLM之Agent初探1、当业务中有大量的tool时,比如有上千个,这些tool的描述加起来,总长度已经大大超过了LLM的最大输入长度,即使能接受这么长的token,从attention机制来看,效果也好不到哪里去。2、在LLM完成指令时,这几千个tool也不是都会被用上,那些没被用上的tool,且没被使用的tool占了绝大部分,大量的没被使用的tool占着大部分输入的token,造成资源的浪费,且推理性能也会有所下降。基于以上两点考虑,尽量将与实际指令相关的tool加载进agent。

2024-01-05 16:03:03 1016

原创 LLM之Agent初探

1、tool description 非常重要,没有写好description,agent无法理解在什么情况下应该调用该tool2、输入参数的 description 非常重要,想要LLM生成给定格式的输入参数,可以给一些few shot样例3、agent本质还是prompt工程,极大程度上依赖于LLM的参数量。小模型无法理解prompt,无法生成给定格式的输入参数,导致tool函数不能被正常调用。

2024-01-02 17:47:20 1602

原创 MinHash + LSH去重

我这里的imap好像没起到作用,比单进程还慢,暂时未找到原因。对象时,也能使用多进程来优化速度。

2023-12-14 10:27:24 225

原创 使用opencompass验证模型效果

参考其他模型的测试脚本,会发现其实是没给测试数据集。中的代码,但是我们配置好openai的key之后,直接运行。:参数应该是模型名称缩写的意思(如果我没理解错的话):few shot拼接的模板,不加该参数效果会差很多。:参数是fastchat启动模型时设置的模型名称。:每秒请求的次数,根据自己服务的QPS来设置就好。没见什么报错后,开始测试我们自己的模型。了,我们使用的是自己的模型,所以设置为。,直接传prompt给模型作为输入,加。:设置为0就好了,使用贪心解码。好了,以上步骤完成后,执行。

2023-12-13 18:26:39 461

原创 关于大模型在文本分类上的尝试

总共25个类别,在BERT上的效果是48%,数据存在不平衡的情况,训练数据分布如下:训练数据不多,4000左右1、Lora SFT效果要比全参SFT差不少2、在单一任务上,基于chat模型做微调要比基于base模型效果要好(多任务上的效果有待验证)3、NEFT确实有效,后续会在其他任务上也使用该方法。

2023-11-30 12:47:51 1087

原创 RAG之微调垂域BGE的经验之谈

随着大模型的爆火,很多垂域行业都开始使用大模型来优化自己的业务,最典型的方法就是RAG(检索增强生成)了。简单来说就是利用检索技术,找出与用户问题相关性最高的段落,再让LLM基于以上段落,去回答用户的提问。CSDN问答机器人。只不过当时是在SBERT模型上微调,也取得了不错的效果。这里我们使用的基座模型是。1、领导要求提高10%以上,没有标注数据的情况下,感觉还是很难的2、各位大佬要是有想法,欢迎在评论区留言一起讨论。

2023-10-25 21:47:59 9737 30

原创 SentenceTransformer使用多GPU加速向量化

当我们需要对大规模的数据向量化以存到向量数据库中时,且服务器上有多个GPU可以支配,我们希望同时利用所有的GPU来并行这一过程,加速向量化。

2023-10-11 20:49:06 2558 1

原创 deepspeed多机多卡并行训练指南

7机14卡,每台服务器两张A800服务器只允许内网访问,不能连接外网因此,你需要先搞定如何离线配置训练环境真正跑过多机多卡训练的同学,应该能明白,这篇文章是有多细节了!毫不夸张地说,干货满满!

2023-08-31 23:56:30 3010 1

原创 百川Dynamic NTK-ALiBi的代码实现:无需微调即可推理更长文本

NTK-ALiBiNTK-ALiBi:通过插值实现大模型ALiBi位置编码的长文本外推。

2023-08-27 15:38:13 1251

原创 使用自己的领域数据扩充baichuan模型词表(其他模型也一样)

总的来说,扩充词表可以加快解码速度,对于对中文支持不太友好的模型(如llama),扩充词表还能提升模型在中文的表现。

2023-08-19 14:54:06 855

原创 大模型训练时间估算

使用激活重计算的一次训练迭代中,对于每个token,每个模型参数,需要进行。内存比较小时再开激活重计算,若内存充足则没必要开激活重计算了。

2023-08-12 11:41:12 1861

原创 ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

本文介绍了针对复杂的家居装修领域而设计的领域特定语言模型ChatHome的开发和评价。考虑到像GPT-4这样的大型语言模型(llm)的成熟能力以及对家庭装修的不断升级的迷恋,本研究通过生成一个专门的模型来调和这些方面,该模型可以产生与家庭装修领域相关的高保真度,精确的输出。ChatHome的新颖之处在于它的方法,在一个广泛的数据集上融合了领域自适应预训练和指令调整。该数据集包括专业文章、标准文档和与家庭装修相关的网络内容。这种双管齐下的策略旨在确保我们的模型能够吸收全面的领域知识并有效地处理用户查询。

2023-08-04 19:34:44 1662

原创 增量预训练baichuan-13b-chat遇到的那些坑

增量预训练百川13b-chat

2023-07-30 11:24:56 2179 4

原创 Could not create share link. Missing file: /xxxx/frpc_linux_amd64_v0.2.

在当前目录按步骤执行。

2023-07-27 19:23:31 3048 1

原创 Could not create share link. Please check your internet connection or our status page: https://statu

【代码】Could not create share link. Please check your internet connection or our status page: https://statu。

2023-07-27 19:17:01 3718 6

原创 LoRA原理解析

随着模型规模的不断扩大,微调模型的所有参数(所谓full fine-tuning)的可行性变得越来越低。以GPT-3的175B参数为例,每增加一个新领域就需要完整微调一个新模型,代价和成本非常高!

2023-07-06 22:40:36 1932

原创 LLaMA及其子孙模型概述

Alpaca是Stanford用52k指令数据微调LLaMA 7B后得到的预训练模型,作者声称在单轮指令执行的效果上,Alpaca的回复质量和openai的text-davinci-003相当,但是Alpaca的参数非常少(微调一个7B的llama需要在8张A100 80G上训练3个小时,花费至少100美元)。为了更好的评估效果,我们使用了一个包含一千个样本和九个真实场景的评估集来测试各种模型,同时通过量化分析来提供有价值的见解,以便更好地促进开源聊天模型的发展。白泽提出的训练方法。

2023-06-22 22:45:40 1808 3

原创 基于prefix tuning + Bert的标题党分类器

传统的fine-tuning是在大规模预训练语言模型(如Bert、GPT2等)上完成的, 针对不同的下游任务, 需要保存不同的模型参数, 代价比较高,解决这个问题的一种自然方法是轻量微调(lightweight fine-tunning),它冻结了大部分预训练参数,并用小的可训练模块来增强模型,比如在预先训练的语言模型层之间插入额外的特定任务层。适配器微调(Adapter-tunning)在自然语言理解和生成基准测试上具有很好的性能,通过微调,仅添加约2-4%的任务特定参数,就可以获得类似的性能。

2023-06-11 17:28:59 1872 2

原创 CSDN问答机器人

基于弱监督的FAQ式问答机器人

2023-05-24 22:00:42 5658 9

原创 用LangChain实现一个ChatBlog

通过本文, 你将学会如何使用`langchain`来构建一个自己的**知识库问答**

2023-05-22 22:24:55 1873 2

原创 Python Flask 封装ChatGPT流式输出接口

Python Flask 封装ChatGPT流式输出接口

2023-05-22 20:09:19 7211 8

原创 句向量模型之SimCSE——Pytorch

SimCSE模型主要分为两大块,一个是无监督的部分,一个是有监督的部分。整体结构如下图所示:论文地址:大道至简全部代码已上传至Github, 链接:数据集:提取码: hlva。

2022-10-01 16:28:03 3719 1

原创 OJ平台代码模板自动生成

经常使用CSDN的小伙伴应该知道, 最近CSDN举办了好几期编程竞赛, 其中的编程模板, 都是有python脚本自动生成的, 这篇文章, 用以记录编程模板自动生成的开发过程.我们以java语言为例进行讲解.1、深度分析数据后才能发现数据的规律一开始leader将这个jira分给我的时候, 我觉得这模板代码没法自动生成, 很是抗拒自己写了几个 python 的 oj 模板后才发现这确实是有规律可循的2、年轻人不要浮躁对OJ比赛感兴趣的同学, 可以参加CSDN编程竞赛第四期若发现OJ。.........

2022-08-18 17:52:06 1430 2

原创 CSDN客服体验记录20220817

本着从贯彻公司文化出发,倾听用户的声音,让自身所做的工作更具结果导向意义,今天体验了2小时的客服工作。在正式工作开始前,通过客服同事的使用文档及讲解帮助,熟悉了下客服系统,了解如何使用。通过此次客服体验,发现自己对于其他业务的产品和功能还是不够了解,绝大多数问题都需要在客服同事的帮助下才能解答处理。无论是提高客服工作效率,还是提升产品体验,我们都应该去倾听用户的声音,了解用真正户需求,满足用户的需要,这样才能成为用户喜欢的产品。...

2022-08-17 16:43:34 398 1

原创 2014第五届蓝桥杯—第二题:切面条

图片引用自:【蓝桥杯题目分析】2014年第五届——第二题:切面条1、不对折(对折零次),从中间切一刀,得到 2 根面条, 2、对折一次,从中间切一刀,得到 3 根面条, 3、对折两次,从中间切一刀,得到 5 根面条, 4、对折三次,从中间切一刀,得到 9 根面条, …11、对折十次,从中间切一刀,得到 根面条

2022-06-02 14:45:27 2960 7

原创 基于Sentence-Bert的检索式问答系统

文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('

2022-05-19 22:51:50 7259 10

原创 jieba多进程分词

文章目录基础分词多进程分词基础分词import jiebaimport reimport emojifrom common.path.dataset.keywords import get_it_keywords_dirfrom common.utils import filter_content_for_blog_clsfrom config.stopwords.cn import CNStopwordsBuilderfrom config.stopwords.default impor

2022-04-24 20:34:04 707 8

原创 CSDN每日开源指数

文章目录一、前言二、开源指数计算规则三、获取数据四、存储数据五、性能问题六、结果一、前言身为一名程序员,想必你肯定知道有个神奇的网站叫Github,上面有各路大神开源的各种项目,CSDN也有自己的开源网站,以前叫CodeChina,现在叫GitCode,使用起来与github无太大差别,但网速比GitHub快很多,非常适合国内开发者使用。为了解决国内用户访问 github 速度较慢的问题,Gitcode将github上的所有开源项目都镜像到Gitcode Mirrors 镜像仓库里,从Gitcode M

2022-04-12 21:42:24 487

原创 Bert+BiLSTM+CRF实体抽取

文章目录一、环境二、模型1、BiLSTM不使用预训练字向量使用预训练字向量2、CRF一、环境torch==1.10.2transformers==4.16.2其他的缺啥装啥二、模型在这篇博客中,我总共使用了三种模型来训练,对比训练效果。分别是BiLSTMBiLSTM + CRFBert + BiLSTM + CRF1、BiLSTM模型大致结构只用BiLSTM来做NER的话,实际上就是多分类,既然是多分类,那么它的损失函数就可以用交叉熵来表示。模型构建及损失计算如下:impo

2022-04-07 22:20:38 23018 78

原创 centos 安装 chromedriver

(一)安装浏览器1、curl https://intoli.com/install-google-chrome.sh | bash2、ldd /opt/google/chrome/chrome | grep "not found”3、google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com(二)安装chromedriver1、yum install chromedri

2022-04-01 16:29:09 2663 4

原创 命名实体识别(NER)标注神器——Label Studio 简单使用

文章目录前言一、安装与启动二、基本使用前言近期在做NER的工作,由于缺乏标注数据,所以,你懂的😭😭Label Studio不仅可以用来标注文本NER任务,还可以用来标注文本分类、图像分类等等其他AI任务。官网——https://labelstud.io/其他标注任务自己去探索吧,我这里只讲一下NER任务。一、安装与启动安装pip install -U label-studio启动# 打开命令行,在命令行中执行:label-studio二、基本使用不出意外的话,在命令行中启动

2022-03-05 18:50:38 45713 120

fasttext图书分类数据集

fasttext图书分类

2021-08-28

深度学习图书分类数据集

图书分类数据集

2021-07-01

深度匹配数据集、聊天数据集.zip

可以做深度匹配训练数据、聊天机器人训练数据

2021-07-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除