自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 资源 (3)
  • 问答 (4)
  • 收藏
  • 关注

原创 deepspeed多机多卡并行训练指南

7机14卡,每台服务器两张A800服务器只允许内网访问,不能连接外网因此,你需要先搞定如何离线配置训练环境真正跑过多机多卡训练的同学,应该能明白,这篇文章是有多细节了!毫不夸张地说,干货满满!

2023-08-31 23:56:30 674 1

原创 百川Dynamic NTK-ALiBi的代码实现:无需微调即可推理更长文本

NTK-ALiBiNTK-ALiBi:通过插值实现大模型ALiBi位置编码的长文本外推。

2023-08-27 15:38:13 393

原创 使用自己的领域数据扩充baichuan模型词表(其他模型也一样)

总的来说,扩充词表可以加快解码速度,对于对中文支持不太友好的模型(如llama),扩充词表还能提升模型在中文的表现。

2023-08-19 14:54:06 208

原创 大模型训练时间估算

使用激活重计算的一次训练迭代中,对于每个token,每个模型参数,需要进行。内存比较小时再开激活重计算,若内存充足则没必要开激活重计算了。

2023-08-12 11:41:12 347

原创 ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

本文介绍了针对复杂的家居装修领域而设计的领域特定语言模型ChatHome的开发和评价。考虑到像GPT-4这样的大型语言模型(llm)的成熟能力以及对家庭装修的不断升级的迷恋,本研究通过生成一个专门的模型来调和这些方面,该模型可以产生与家庭装修领域相关的高保真度,精确的输出。ChatHome的新颖之处在于它的方法,在一个广泛的数据集上融合了领域自适应预训练和指令调整。该数据集包括专业文章、标准文档和与家庭装修相关的网络内容。这种双管齐下的策略旨在确保我们的模型能够吸收全面的领域知识并有效地处理用户查询。

2023-08-04 19:34:44 441

原创 增量预训练baichuan-13b-chat遇到的那些坑

增量预训练百川13b-chat

2023-07-30 11:24:56 791 3

原创 Could not create share link. Missing file: /xxxx/frpc_linux_amd64_v0.2.

在当前目录按步骤执行。

2023-07-27 19:23:31 593

原创 Could not create share link. Please check your internet connection or our status page: https://statu

【代码】Could not create share link. Please check your internet connection or our status page: https://statu。

2023-07-27 19:17:01 1120 3

原创 LoRA原理解析

随着模型规模的不断扩大,微调模型的所有参数(所谓full fine-tuning)的可行性变得越来越低。以GPT-3的175B参数为例,每增加一个新领域就需要完整微调一个新模型,代价和成本非常高!

2023-07-06 22:40:36 394

原创 LLaMA及其子孙模型概述

Alpaca是Stanford用52k指令数据微调LLaMA 7B后得到的预训练模型,作者声称在单轮指令执行的效果上,Alpaca的回复质量和openai的text-davinci-003相当,但是Alpaca的参数非常少(微调一个7B的llama需要在8张A100 80G上训练3个小时,花费至少100美元)。为了更好的评估效果,我们使用了一个包含一千个样本和九个真实场景的评估集来测试各种模型,同时通过量化分析来提供有价值的见解,以便更好地促进开源聊天模型的发展。白泽提出的训练方法。

2023-06-22 22:45:40 956 2

原创 基于prefix tuning + Bert的标题党分类器

传统的fine-tuning是在大规模预训练语言模型(如Bert、GPT2等)上完成的, 针对不同的下游任务, 需要保存不同的模型参数, 代价比较高,解决这个问题的一种自然方法是轻量微调(lightweight fine-tunning),它冻结了大部分预训练参数,并用小的可训练模块来增强模型,比如在预先训练的语言模型层之间插入额外的特定任务层。适配器微调(Adapter-tunning)在自然语言理解和生成基准测试上具有很好的性能,通过微调,仅添加约2-4%的任务特定参数,就可以获得类似的性能。

2023-06-11 17:28:59 801 2

原创 CSDN问答机器人

基于弱监督的FAQ式问答机器人

2023-05-24 22:00:42 3938 7

原创 用LangChain实现一个ChatBlog

通过本文, 你将学会如何使用`langchain`来构建一个自己的**知识库问答**

2023-05-22 22:24:55 1304 2

原创 Python Flask 封装ChatGPT流式输出接口

Python Flask 封装ChatGPT流式输出接口

2023-05-22 20:09:19 2604 8

原创 2022——年度总结

2022年的工作已经圆满结束, 今天我们这边是小年, 忙里偷闲, 写下这篇博客, 以此对2022年的工作, 划上一个句号.有注意到我们组从AI小组改名为AI数据处理了, 那么就从AI和数据处理, 两个方面总结下2022年所做的工作吧。

2023-01-19 11:52:26 1454

原创 句向量模型之SimCSE——Pytorch

SimCSE模型主要分为两大块,一个是无监督的部分,一个是有监督的部分。整体结构如下图所示:论文地址:大道至简全部代码已上传至Github, 链接:数据集:提取码: hlva。

2022-10-01 16:28:03 2530

原创 OJ平台代码模板自动生成

经常使用CSDN的小伙伴应该知道, 最近CSDN举办了好几期编程竞赛, 其中的编程模板, 都是有python脚本自动生成的, 这篇文章, 用以记录编程模板自动生成的开发过程.我们以java语言为例进行讲解.1、深度分析数据后才能发现数据的规律一开始leader将这个jira分给我的时候, 我觉得这模板代码没法自动生成, 很是抗拒自己写了几个 python 的 oj 模板后才发现这确实是有规律可循的2、年轻人不要浮躁对OJ比赛感兴趣的同学, 可以参加CSDN编程竞赛第四期若发现OJ。.........

2022-08-18 17:52:06 1118 2

原创 CSDN客服体验记录20220817

本着从贯彻公司文化出发,倾听用户的声音,让自身所做的工作更具结果导向意义,今天体验了2小时的客服工作。在正式工作开始前,通过客服同事的使用文档及讲解帮助,熟悉了下客服系统,了解如何使用。通过此次客服体验,发现自己对于其他业务的产品和功能还是不够了解,绝大多数问题都需要在客服同事的帮助下才能解答处理。无论是提高客服工作效率,还是提升产品体验,我们都应该去倾听用户的声音,了解用真正户需求,满足用户的需要,这样才能成为用户喜欢的产品。...

2022-08-17 16:43:34 326 1

原创 2014第五届蓝桥杯—第二题:切面条

图片引用自:【蓝桥杯题目分析】2014年第五届——第二题:切面条1、不对折(对折零次),从中间切一刀,得到 2 根面条, 2、对折一次,从中间切一刀,得到 3 根面条, 3、对折两次,从中间切一刀,得到 5 根面条, 4、对折三次,从中间切一刀,得到 9 根面条, …11、对折十次,从中间切一刀,得到 根面条

2022-06-02 14:45:27 2546 7

原创 基于Sentence-Bert的检索式问答系统

文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('

2022-05-19 22:51:50 5111 10

原创 jieba多进程分词

文章目录基础分词多进程分词基础分词import jiebaimport reimport emojifrom common.path.dataset.keywords import get_it_keywords_dirfrom common.utils import filter_content_for_blog_clsfrom config.stopwords.cn import CNStopwordsBuilderfrom config.stopwords.default impor

2022-04-24 20:34:04 528 8

原创 CSDN每日开源指数

文章目录一、前言二、开源指数计算规则三、获取数据四、存储数据五、性能问题六、结果一、前言身为一名程序员,想必你肯定知道有个神奇的网站叫Github,上面有各路大神开源的各种项目,CSDN也有自己的开源网站,以前叫CodeChina,现在叫GitCode,使用起来与github无太大差别,但网速比GitHub快很多,非常适合国内开发者使用。为了解决国内用户访问 github 速度较慢的问题,Gitcode将github上的所有开源项目都镜像到Gitcode Mirrors 镜像仓库里,从Gitcode M

2022-04-12 21:42:24 354

原创 Bert+BiLSTM+CRF实体抽取

文章目录一、环境二、模型1、BiLSTM不使用预训练字向量使用预训练字向量2、CRF一、环境torch==1.10.2transformers==4.16.2其他的缺啥装啥二、模型在这篇博客中,我总共使用了三种模型来训练,对比训练效果。分别是BiLSTMBiLSTM + CRFBert + BiLSTM + CRF1、BiLSTM模型大致结构只用BiLSTM来做NER的话,实际上就是多分类,既然是多分类,那么它的损失函数就可以用交叉熵来表示。模型构建及损失计算如下:impo

2022-04-07 22:20:38 15388 61

原创 centos 安装 chromedriver

(一)安装浏览器1、curl https://intoli.com/install-google-chrome.sh | bash2、ldd /opt/google/chrome/chrome | grep "not found”3、google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com(二)安装chromedriver1、yum install chromedri

2022-04-01 16:29:09 2156 4

原创 命名实体识别(NER)标注神器——Label Studio 简单使用

文章目录前言一、安装与启动二、基本使用前言近期在做NER的工作,由于缺乏标注数据,所以,你懂的😭😭Label Studio不仅可以用来标注文本NER任务,还可以用来标注文本分类、图像分类等等其他AI任务。官网——https://labelstud.io/其他标注任务自己去探索吧,我这里只讲一下NER任务。一、安装与启动安装pip install -U label-studio启动# 打开命令行,在命令行中执行:label-studio二、基本使用不出意外的话,在命令行中启动

2022-03-05 18:50:38 30630 102

原创 MySQL学习笔记(三)表的增删改

文章目录前言mysql常见数据类型一、表的创建create二、插入数据insertinsert插入日期insert插入多条数据将查询结果插入到一张表当中三、修改数据update四、删除数据delete快速删除表中的数据 truncate五、约束非空约束:not null唯一性约束: unique主键约束:primary key,简称PK外键约束:foreign key,简称FK前言视频教程:老杜带你学mysql-基础教程为了记录学习历程,方便以后查找,写下此博客。本文所使用的数据:链接:mysq

2022-01-16 17:07:41 590 1

原创 使用百度paddlex快速训练图片分类器

文章目录前言一、环境依赖二、使用步骤1.准备数据2.划分数据集3.训练4.预测总结前言对内容的分类,有时候不仅需要使用到文本数据,也需要使用到图像数据,将两者联合起来对内容的进行分类。这时候,要是有个工具,能让你快速训练图像分类模型,简直不要太爽,paddlex就是这样一款神器神器。一、环境依赖paddlepaddle-gpu或paddlepaddle(版本大于或等于1.8.1)pip install cythonpip install pycocotoolspip install padd

2022-01-14 23:30:00 1648

原创 技术/广告 文章分类器(二)

文章目录前言一、优化手段1、增加训练数据2、更改分类模型3、分词时加入用户词典4、去除停用词及特殊符号二、TFIDF + AdaBoost全部代码三、Fasttext全部代码总结前言本文基于上一篇博客技术/广告 文章分类器(一),作出了一些优化,将准确率由84.5%提升至94.4%一、优化手段1、增加训练数据之前的训练数据集,两类数据分别只有500条左右,训练数据太少。本文所使用数据集为45000余条,增加了90倍,应该完全够用2、更改分类模型之前使用多项式朴素贝叶斯,效果一般,由于使用

2022-01-03 14:54:14 720 3

原创 MySQL学习笔记(二)多表查询

文章目录前言一、去重二、连接查询内连接之等值连接内连接之非等值连接外连接子查询union合并查询结果集limit关于DQL语句的大总结前言视频教程:老杜带你学mysql-基础教程为了记录学习历程,方便以后查找,写下此博客。本文所使用的数据:链接:mysql_document提取码:umui一、去重1、把查询结果去除重复记录注意: distinct只能出现在所有字段的最前方。mysql> select distinct job from emp;+-----------+|

2021-12-26 13:16:37 943

原创 MySQL学习笔记(一)单表查询

文章目录前言一、本地登录二、mysql常用命令三、条件查询四、数据处理函数(单行处理函数)五、分组函数(多行处理函数)六、分组查询总结前言视频教程:老杜带你学mysql-基础教程为了记录学习历程,方便以后查找,写下此博客。一、本地登录mysql -uroot -p111111mysql -uroot -p二、mysql常用命令1、查看mysql中有哪些数据库?mysql> show databases;输出+--------------------+| Databas.

2021-12-18 17:14:16 205

原创 技术/广告 文章分类器(一)

文章目录前言一、数据二、训练1.加载数据2.加载停用词3.训练4.预测三、完整代码总结前言CSDN的不少博客中,总是有不少博主,在博客中加入自己的软文广告,不是要你加群就是要你关注公众号,关注公众号后,天天在自己的公众号中卖课,推销,甚是烦人,把天真可爱的程序员当作韭菜来割,真是可恶。今天,我们就是要甄别这类文章。一、数据technology文件夹中的某段数据:这就很正能量,踏踏实实写博客,分享自己的经验,向大佬致敬????????advertisement文件夹中的某段数据:转人家文

2021-12-18 14:03:00 498

原创 踩坑日记(三)re.split()篇

在解析网页时,有一个需求是将网页内容按<h2>.*<h2>划分开,很容易想到,re.split()可以实现这一功能。话不多说,我们进入正题:import retest_data = """今天天气真不错<h2>是的</h2>真不错啊真不错"""res = re.findall(r'<h2>.*</h2>', test_data, re.S)print(res)输出['\n今天天气真不错\n', '\n真不错

2021-12-18 13:18:33 692

原创 十字链表与邻接多重表的画法

文章目录前言一、十字链表1.画邻接表2.增加弧节点的域3.自己指向自己二、邻接多重表1.画顶点2.画边3.自己指向自己前言近期一直在构建算法技能树的数据,借此机会,重新把数据结构与算法又温习了一遍,在看到十字链表与邻接多重表的画法时,十分的不理解,在C站找资料时,发现也看不懂,于是上B站,终于明白了十字链表与多重邻接表的画法。一、十字链表我们以下面的有向图为例来进行讲解首先我们有几个定义要搞清楚:如果:则我们称V0是弧尾, v3是弧头反之,如果:则我们称v1是弧尾,v0是弧头。顶

2021-11-06 17:54:22 6448 6

原创 解决Mac VS Code fatal error: ‘bits/stdc++.h‘ file not found

百度找的答案太坑了,从StackExchange上找到个正确答案,链接解决Mac fatal error: ‘bits/stdc++.h’ file not foundbrew install gccgcc --versioncd /Library/Developer/CommandLineTools/usr/bincd …/includesudo mkdir bitscd bits在Downloads下新建stdc++.h文件,将该链接stdc++.h内容粘贴至刚刚Downloads下新建

2021-10-20 11:41:02 2404 2

原创 踩坑日记(二)Redis篇

此篇文章用以记录python操作redis时容易忽略的问题。首先,连接redisimport redisr = redis.StrictRedis(host='localhost', port=6379, db=0)随便写个东西进去r.sadd('test01', 1, 2, 3, 4, 5, 5)输出:5这是因为此处使用的是redis的集合类型,而集合中的元素是不能重复的,存进去的数字中,有重复元素,去除重复的元素后,只剩下剩下5个元素,被存入到redis数据库中。取出所有元素:r.

2021-09-21 18:16:35 168 1

原创 踩坑日记(一)日志打印篇

团队博客: CSDN AI小组2021/09/12,踩坑日记(一):首先,我们来看一段代码:def request_create_commnuity(self, url, param): fails = 0 while True: try: if fails >= 20: break headers = {'Content-Type'.

2021-09-12 13:23:21 117 1

原创 TextCNN文本分类Pytorch

文章目录前言一、环境:二、数据:三、模型结构四、主要代码1.word2id与id2word2.word2vec3.加载word2vec总结前言之前写了一篇Fasttext文本分类的文章,三个类别的准确率达到90+%,这篇文章主要是想测试一下TextCNN在文本分类任务上的效果,与fasttext对比,孰优孰劣。代码已上传至GitHub:TextCNN文本分类一、环境:torch==1.9.0gensim==3.8.3其他的缺啥装啥吧gensim4.x版本与3.x版本有些参数名变了,报错.

2021-09-07 23:10:18 3183 2

原创 代码变种策略文档说明

代码变种策略文档说明:cpp/java:1、替换if while for 中的运算符:{ "+": ["-"], "-": ["+"], "<": [">", ">=", "<=", "=="], ">": ["<", ">=", "<=", "=="], "<=": [">", ">=", "<", "=="], ">=": [">", "<=", "<",

2021-09-07 16:19:13 148 1

原创 fasttext文本分类

文章目录前言一、环境二、数据处理三、训练总结前言fastText是Facebook Research在2016年开源的一个词向量及文本分类工具,今天这篇文章主要使用fasttext在来做文本分类,测试fasttext用于分类的实际效果。本文所使用的数据及代码均已上传至GitHub传送门: fasttext_classify一、环境python3.8fasttext-0.9.2tqdm在windows上安装fasttext得去https://www.lfd.uci.edu/~gohlk.

2021-08-28 16:32:36 1282 2

原创 每日一题开发记录(二)

文章目录前言一、数据二、策略1、选择题2、填空选择题三、存储四、部署总结每日一题社区论坛前言前一篇文章代码一变三模块开发记录(一)大致介绍了代码一变三模块的来龙去脉,由于我们的数据源,主要都是一些算法题,考虑到删掉部分代码后,容易暴露正确选项,因此,为了增加题目的混淆性,去掉了删除代码的策略,主要针对改代码,进行了一些策略调整。一、数据距离上一篇博客已经一个月之久,这一个月,至少有15天都在处理数据,想必作为NLP工程师,数据的重要性,大家应该都不言而喻。我们有一部分题目,来自LeetCod.

2021-08-20 12:59:45 93

fasttext图书分类数据集

fasttext图书分类

2021-08-28

深度学习图书分类数据集

图书分类数据集

2021-07-01

深度匹配数据集、聊天数据集.zip

可以做深度匹配训练数据、聊天机器人训练数据

2021-07-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除