ToTensor-CSDN博客

原创 Llama3-chinese: 大幅改进Llama3 中文能力

是以Meta-Llama-3-8B为底座，使用DORALORA+的训练方法，在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。

2024-04-22 13:26:05 2635

原创 Qwen-WisdomVast (千问-智瀚)

是以Qwen1.5-7B为底座，使用DORALORA+的训练方法，在100w高质量中文多轮SFT数据 + 20w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型，数学能力相比Qwen1.5-7B-Chat提升了5.16%，在HumanEval数据集上相比Qwen1.5-7B-Chat提升了12.8，在MBPP数据集上提升了11.6%，在BBH数据集上提升了12.44%，全部评测表现见下表。

2024-04-11 16:01:59 678

原创 deepspeed使用zero3 + offload报错:AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam

说是系统cuda和torch的cuda版本不匹配，我们直接改成不检查cuda版本。3、修改完后再次在命令行执行。输出以下内容表示大功告成。

2024-03-26 16:46:22 1030 4

原创 Facebook mms ASR 实践

先来看看mms（Massively Multilingual Speech）的介绍吧大规模多语言语音(MMS)项目通过建立一个支持超过1100种语言的单一多语言语音识别模型(比以前多10倍)，能够识别超过4000种语言的语言识别模型(比以前多40倍)，支持超过1400种语言的预训练模型，以及超过1100种语言的文本到语音模型，将语音技术从大约100种语言扩展到超过1000种。我们的目标是使人们更容易以他们喜欢的语言访问信息和使用设备。ASR支持4000多种语言，确实变态哈。

2024-03-03 18:36:17 417

原创 Fastwhisper + Pyannote 实现 ASR + 说话者识别

最近在研究ASR相关的业务，也是调研了不少模型，踩了不少坑，ASR这块，目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了，英文的话，还是非whisper莫属了，而且whisper很变态，粤语效果也还不错，因此，如果实际业务中需要涉及到不同的语言，还是更推荐whisper多一点faster-whisper是使用CTranslate2对OpenAI的Whisper模型的重新实现，CTranslate2是一个用于Transformer模型的快速推理引擎。

2024-03-03 18:08:22 3065 8

原创 LLM之Agent再探

LLM之Agent初探1、当业务中有大量的tool时，比如有上千个，这些tool的描述加起来，总长度已经大大超过了LLM的最大输入长度，即使能接受这么长的token，从attention机制来看，效果也好不到哪里去。2、在LLM完成指令时，这几千个tool也不是都会被用上，那些没被用上的tool，且没被使用的tool占了绝大部分，大量的没被使用的tool占着大部分输入的token，造成资源的浪费，且推理性能也会有所下降。基于以上两点考虑，尽量将与实际指令相关的tool加载进agent。

2024-01-05 16:03:03 963

原创 LLM之Agent初探

1、tool description 非常重要，没有写好description，agent无法理解在什么情况下应该调用该tool2、输入参数的 description 非常重要，想要LLM生成给定格式的输入参数，可以给一些few shot样例3、agent本质还是prompt工程，极大程度上依赖于LLM的参数量。小模型无法理解prompt，无法生成给定格式的输入参数，导致tool函数不能被正常调用。

2024-01-02 17:47:20 1406

原创 MinHash + LSH去重

我这里的imap好像没起到作用，比单进程还慢，暂时未找到原因。对象时，也能使用多进程来优化速度。

2023-12-14 10:27:24 192

原创使用opencompass验证模型效果

参考其他模型的测试脚本，会发现其实是没给测试数据集。中的代码，但是我们配置好openai的key之后，直接运行。：参数应该是模型名称缩写的意思（如果我没理解错的话）：few shot拼接的模板，不加该参数效果会差很多。：参数是fastchat启动模型时设置的模型名称。：每秒请求的次数，根据自己服务的QPS来设置就好。没见什么报错后，开始测试我们自己的模型。了，我们使用的是自己的模型，所以设置为。，直接传prompt给模型作为输入，加。：设置为0就好了，使用贪心解码。好了，以上步骤完成后，执行。

2023-12-13 18:26:39 328

原创关于大模型在文本分类上的尝试

总共25个类别，在BERT上的效果是48%，数据存在不平衡的情况，训练数据分布如下：训练数据不多，4000左右1、Lora SFT效果要比全参SFT差不少2、在单一任务上，基于chat模型做微调要比基于base模型效果要好（多任务上的效果有待验证）3、NEFT确实有效，后续会在其他任务上也使用该方法。

2023-11-30 12:47:51 864

原创 RAG之微调垂域BGE的经验之谈

随着大模型的爆火，很多垂域行业都开始使用大模型来优化自己的业务，最典型的方法就是RAG（检索增强生成）了。简单来说就是利用检索技术，找出与用户问题相关性最高的段落，再让LLM基于以上段落，去回答用户的提问。CSDN问答机器人。只不过当时是在SBERT模型上微调，也取得了不错的效果。这里我们使用的基座模型是。1、领导要求提高10%以上，没有标注数据的情况下，感觉还是很难的2、各位大佬要是有想法，欢迎在评论区留言一起讨论。

2023-10-25 21:47:59 6011 27

原创 SentenceTransformer使用多GPU加速向量化

当我们需要对大规模的数据向量化以存到向量数据库中时，且服务器上有多个GPU可以支配，我们希望同时利用所有的GPU来并行这一过程，加速向量化。

2023-10-11 20:49:06 1718 1

原创 deepspeed多机多卡并行训练指南

7机14卡，每台服务器两张A800服务器只允许内网访问，不能连接外网因此，你需要先搞定如何离线配置训练环境真正跑过多机多卡训练的同学，应该能明白，这篇文章是有多细节了！毫不夸张地说，干货满满！

2023-08-31 23:56:30 2448 1

原创百川Dynamic NTK-ALiBi的代码实现：无需微调即可推理更长文本

NTK-ALiBiNTK-ALiBi：通过插值实现大模型ALiBi位置编码的长文本外推。

2023-08-27 15:38:13 1098

原创使用自己的领域数据扩充baichuan模型词表（其他模型也一样）

总的来说，扩充词表可以加快解码速度，对于对中文支持不太友好的模型（如llama），扩充词表还能提升模型在中文的表现。

2023-08-19 14:54:06 724

原创大模型训练时间估算

使用激活重计算的一次训练迭代中，对于每个token，每个模型参数，需要进行。内存比较小时再开激活重计算，若内存充足则没必要开激活重计算了。

2023-08-12 11:41:12 1376

原创 ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

本文介绍了针对复杂的家居装修领域而设计的领域特定语言模型ChatHome的开发和评价。考虑到像GPT-4这样的大型语言模型(llm)的成熟能力以及对家庭装修的不断升级的迷恋，本研究通过生成一个专门的模型来调和这些方面，该模型可以产生与家庭装修领域相关的高保真度，精确的输出。ChatHome的新颖之处在于它的方法，在一个广泛的数据集上融合了领域自适应预训练和指令调整。该数据集包括专业文章、标准文档和与家庭装修相关的网络内容。这种双管齐下的策略旨在确保我们的模型能够吸收全面的领域知识并有效地处理用户查询。

2023-08-04 19:34:44 1346

原创增量预训练baichuan-13b-chat遇到的那些坑

增量预训练百川13b-chat

2023-07-30 11:24:56 1964 4

原创 Could not create share link. Missing file: /xxxx/frpc_linux_amd64_v0.2.

在当前目录按步骤执行。

2023-07-27 19:23:31 2613 1

原创 Could not create share link. Please check your internet connection or our status page: https://statu

【代码】Could not create share link. Please check your internet connection or our status page: https://statu。

2023-07-27 19:17:01 3565 6

原创 LoRA原理解析

随着模型规模的不断扩大，微调模型的所有参数（所谓full fine-tuning）的可行性变得越来越低。以GPT-3的175B参数为例，每增加一个新领域就需要完整微调一个新模型，代价和成本非常高！

2023-07-06 22:40:36 1460

原创 LLaMA及其子孙模型概述

Alpaca是Stanford用52k指令数据微调LLaMA 7B后得到的预训练模型，作者声称在单轮指令执行的效果上，Alpaca的回复质量和openai的text-davinci-003相当，但是Alpaca的参数非常少（微调一个7B的llama需要在8张A100 80G上训练3个小时，花费至少100美元）。为了更好的评估效果，我们使用了一个包含一千个样本和九个真实场景的评估集来测试各种模型，同时通过量化分析来提供有价值的见解，以便更好地促进开源聊天模型的发展。白泽提出的训练方法。

2023-06-22 22:45:40 1615 3

原创基于prefix tuning + Bert的标题党分类器

传统的fine-tuning是在大规模预训练语言模型(如Bert、GPT2等)上完成的, 针对不同的下游任务, 需要保存不同的模型参数, 代价比较高,解决这个问题的一种自然方法是轻量微调（lightweight fine-tunning），它冻结了大部分预训练参数，并用小的可训练模块来增强模型，比如在预先训练的语言模型层之间插入额外的特定任务层。适配器微调（Adapter-tunning）在自然语言理解和生成基准测试上具有很好的性能，通过微调，仅添加约2-4%的任务特定参数，就可以获得类似的性能。

2023-06-11 17:28:59 1656 2

原创 CSDN问答机器人

基于弱监督的FAQ式问答机器人

2023-05-24 22:00:42 5038 8

原创用LangChain实现一个ChatBlog

通过本文, 你将学会如何使用`langchain`来构建一个自己的**知识库问答**

2023-05-22 22:24:55 1759 2

原创 Python Flask 封装ChatGPT流式输出接口

Python Flask 封装ChatGPT流式输出接口

2023-05-22 20:09:19 6499 8

原创句向量模型之SimCSE——Pytorch

SimCSE模型主要分为两大块，一个是无监督的部分，一个是有监督的部分。整体结构如下图所示：论文地址:大道至简全部代码已上传至Github, 链接:数据集:提取码: hlva。

2022-10-01 16:28:03 3400 1

原创 OJ平台代码模板自动生成

经常使用CSDN的小伙伴应该知道, 最近CSDN举办了好几期编程竞赛, 其中的编程模板, 都是有python脚本自动生成的, 这篇文章, 用以记录编程模板自动生成的开发过程.我们以java语言为例进行讲解.1、深度分析数据后才能发现数据的规律一开始leader将这个jira分给我的时候, 我觉得这模板代码没法自动生成, 很是抗拒自己写了几个 python 的 oj 模板后才发现这确实是有规律可循的2、年轻人不要浮躁对OJ比赛感兴趣的同学, 可以参加CSDN编程竞赛第四期若发现OJ。.........

2022-08-18 17:52:06 1353 2

原创 CSDN客服体验记录20220817

本着从贯彻公司文化出发，倾听用户的声音，让自身所做的工作更具结果导向意义，今天体验了2小时的客服工作。在正式工作开始前，通过客服同事的使用文档及讲解帮助，熟悉了下客服系统，了解如何使用。通过此次客服体验，发现自己对于其他业务的产品和功能还是不够了解，绝大多数问题都需要在客服同事的帮助下才能解答处理。无论是提高客服工作效率，还是提升产品体验，我们都应该去倾听用户的声音，了解用真正户需求，满足用户的需要，这样才能成为用户喜欢的产品。...

2022-08-17 16:43:34 382 1

原创 2014第五届蓝桥杯—第二题：切面条

图片引用自：【蓝桥杯题目分析】2014年第五届——第二题：切面条1、不对折（对折零次），从中间切一刀，得到 2 根面条， 2、对折一次，从中间切一刀，得到 3 根面条， 3、对折两次，从中间切一刀，得到 5 根面条， 4、对折三次，从中间切一刀，得到 9 根面条， …11、对折十次，从中间切一刀，得到根面条

2022-06-02 14:45:27 2898 7

原创基于Sentence-Bert的检索式问答系统

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('

2022-05-19 22:51:50 6743 10

原创 jieba多进程分词

文章目录基础分词多进程分词基础分词import jiebaimport reimport emojifrom common.path.dataset.keywords import get_it_keywords_dirfrom common.utils import filter_content_for_blog_clsfrom config.stopwords.cn import CNStopwordsBuilderfrom config.stopwords.default impor

2022-04-24 20:34:04 652 8

原创 CSDN每日开源指数

文章目录一、前言二、开源指数计算规则三、获取数据四、存储数据五、性能问题六、结果一、前言身为一名程序员，想必你肯定知道有个神奇的网站叫Github，上面有各路大神开源的各种项目，CSDN也有自己的开源网站，以前叫CodeChina，现在叫GitCode，使用起来与github无太大差别，但网速比GitHub快很多，非常适合国内开发者使用。为了解决国内用户访问 github 速度较慢的问题，Gitcode将github上的所有开源项目都镜像到Gitcode Mirrors 镜像仓库里，从Gitcode M

2022-04-12 21:42:24 406

fasttext图书分类数据集

深度学习图书分类数据集

深度匹配数据集、聊天数据集.zip

pycharm代码没有提示

关于蓝桥杯切面条的问题

怎么才能提高OCR的识别准确率

有没有什么办法可以识别文字的方向，将其转正

怎么从英文文本中提取出代码呢？求大佬解答