- 博客(2100)
- 资源 (4)
- 收藏
- 关注
原创 开源 LLM (大语言模型)整理(一)
早期实验表明,LLaVA 展示了优秀的多模型聊天能力,有时在看不见的图像 / 指令上表现出多模型 GPT-4 的行为,与 GPT-4 相比,在合成的多模态指令跟随数据集中产生了 85.1% 的相对得分。GLM 是以英文为核心的预训练语言模型系列,基于新的预训练范式实现单一模型在语言理解和生成任务方面取得了最佳结果,并且超过了在相同数据量进行训练的常见预训练模型(例如 BERT,RoBERTa 和 T5),目前已开源 1.1 亿、3.35 亿、4.10 亿、5.15 亿、100 亿参数规模的模型。
2023-06-06 22:53:28
22
原创 LLM-微调-方案(一):Lora【案例:chatGLM-Lora】【在chatGLM原有结构中间插入新的网络层】【微调时冻结原有结构参数,只微调新加入的网络层参数】
【代码】Lora微调:chatGLM-Lora【在chatGLM原有结构中间插入新的网络层】【微调时冻结原有结构参数,只微调新加入的网络层参数】
2023-06-05 14:50:16
25
原创 用户画像、物品画像【画像就是刻画物品或用户的特征;本质上就是给用户或物品贴标签】
但另外一些特征,比如电影的内容简介、电影的影评、图书的摘要等文本数据,这些被称为非结构化数据,首先他们本应该也属于物品的一个特征标签,但是这样的特征标签进行量化时,也就是计算他的特征向量时是很难去定义的。上面提到,物品画像的特征标签主要都是指的如电影、导演、演员、图书的作者、出版社等结构化的数据,也就是他们的特征提取,尤其是体征向量的计算是比较简单的,如直接给作品的分类定义为0或1的状态。结论:TF-IDF与词语在文档中的出现次数成正比,与该词在整个文档集中的出现次数成反比。1)TF-IDF介绍。
2023-05-31 20:29:33
22
原创 【经典简读】知识蒸馏(Knowledge Distillation) 经典之作
在训练过程中,我们需要使用复杂的模型,大量的计算资源,以便从非常大、高度冗余的数据集中提取出信息。在实验中,效果最好的模型往往规模很大,甚至由多个模型集成得到。而大模型不方便部署到服务中去,常见的瓶颈如下:推断速度慢对部署资源要求高(内存,显存等)在部署时,我们对延迟以及计算资源都有着严格的限制。因此,模型压缩(在保证性能的前提下减少模型的参数量)成为了一个重要的问题。而”模型蒸馏“属于模型压缩的一种方法。插句题外话。
2023-05-31 09:41:22
28
原创 知识蒸馏系列(二):知识蒸馏的迁移学习应用
迁移学习任务旨在将源域(source domain)上训练获得的预训练模型迁移至目标域(target domain)上,从而使模型在源域上学习到的知识能够迁移到目标域上,达到提升目标域任务表现等效果。对于解决源域和目标域间的数据分布差异这一问题,根据迁移学习的实现对象目标区别[3],可以将迁移学习方法分为如下类别:源自参考文献 [3]基于实例的迁移(instance-based transfer)
2023-05-31 09:39:13
14
原创 知识蒸馏系列(一):三类基础蒸馏算法OpenMMLabOpenMMLab
知识蒸馏(Knowledge Distillation,简记为 KD)是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型(或多模型的 ensemble),在不改变学生模型结构的情况下提高其性能。2015 年 Hinton 团队提出的基于“响应”()的知识蒸馏技术(一般将该文算法称为)掀起了相关研究热潮,其后基于“特征”()和基于“关系”()的 KD 算法被陆续提出。
2023-05-31 09:38:17
13
原创 知识蒸馏系列(三):使用 MMRazor 实现知识蒸馏算法
本文介绍了 MMRazor 对知识蒸馏算法的设计框架,并列举了两个简单例子来介绍如何使用 MMRazor 开发知识蒸馏算法。希望本文可以帮助到大家,也期待大家的使用和批评指正。我们非常欢迎大家:1)提出使用过程中遇到的问题,包括但不限于 bug、框架设计优化建议、希望后续 MMRazor 新增某些功能、算法等;2)在 MMRazor 中复现某个算法或某类算法 pipeline;3)帮 MMRazor 进行宣传,增加使用者的数量等。
2023-05-31 09:36:53
19
原创 知识蒸馏系列:蒸馏算法【标准蒸馏、DML蒸馏(互学习蒸馏)、CML蒸馏(协同互学习蒸馏)、U-DML蒸馏(统一互学习蒸馏)】
知识蒸馏(Knowledge Distillation,简记为 KD)是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型(或多模型的 ensemble),在不改变学生模型结构的情况下提高其性能。2)教师模型也权重更新的 online KD、self KD;3)面向检测、分割、自然语言处理等任务的 KD 算法等。)掀起了相关研究热潮,其后基于“特征”()的知识蒸馏技术(一般将该文算法称为。)的 KD 算法被陆续提出。
2023-05-30 18:12:13
7
原创 推荐系统-召回层-算法-近似最近邻搜索算法(ANN):LSH【高维稀疏向量相似查找】【算法实现:MinHash】
我们在推荐相似文章的时候,其实并不会用到所有文章,也就是TOPK个相似文章会被推荐出去,经过排序之后的结果。如果我们的设备资源、时间也真充足的话,可以进行某频道全量所有的两两相似度计算。但是事实当文章量达到千万级别或者上亿级别,特征也会上亿级别,计算量就会很大。一下有两种类型解决方案每个频道的文章先进行聚类可以对每个频道内N个文章聚成M类别,那么类别数越多每个类别的文章数量越少。如下pyspark代码。
2023-05-29 23:41:33
43
1
原创 推荐系统中常用的embedding方法
其中,���指的是节点�到节点�的距离,只有3种情况,如果又回到顶点t,那么为0;如果x和t直接相邻,那么为1;在传统机器学习模型构建过程中,经常使用one hot encoding对离散特征,特别是ID类特征进行编码,但由于one hot encoding的维度等于特征的总数,比如阿里的商品one hot encoding的维度就至少是千万量级的,而且有的特征还会增量更新,所以这样的编码方式得到的特征向量是非常稀疏的,甚至用multi hot encoding对ID特征编码也会是一个非常稀疏的向量。
2023-05-29 20:44:45
15
原创 Apscheduler:定时任务框架【提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务;基于这些功能,我们可以很方便的实现一个python定时任务系统】
APScheduler基于Quartz的一个Python定时任务框架,实现了Quartz的所有功能,使用起来十分方便;提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化任务;基于这些功能,我们可以很方便的实现一个python定时任务系统。
2023-05-29 20:16:05
9
原创 大模型:Aurora genAI【参数:1万亿(参数是ChaGPT的近6倍)】【英特尔】
早期性能结果显示,Aurora 超算系统在实际科学和工程负载上具有领先性能,性能表现比 AMD MI250 GPU 高出 2 倍,在 QMCPACK 量子力学应用程序上的性能比 H100 提高 20%,且能够在数百个节点上保持近线性的算力扩展。目前从事实来说,的确是模型越大数据越多,且质量越好,带来的性能是越高的。但是我个人认为,这个提升曲线可能会有一个瓶颈期,到了瓶颈或者平台期的时候,它的上升速度可能就会缓慢,或者说基本就达到稳定了。所以说,“模型参数越大越好”这个说法在一定程度上是成立的。
2023-05-29 09:52:36
20
原创 supervisor:Linux系统进程管理工具【能将一个普通的命令行进程变为后台daemon,并监控进程状态,异常退出时能自动重启】
supervisor是一个进程管理工具,当进程中断的时候supervisor能自动重新启动它,同时,它也是一个客户端/服务器系统,允许用户在类unix操作系统上控制多个进程。supervisor是用Python开发的一套通用的进程管理程序,supervisor是通过fork/exec的方式把这些被管理的进程当作supervisor的子进程来启动,这样可实现当子进程挂掉的时候,父进程可以准确获取子进程挂掉的信息的,可以选择是否自己启动和报警。
2023-05-28 16:35:50
18
原创 CLUENER 细粒度命名实体识别baseline:BiLSTM-CRF
地址(address): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。书名(book): 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。公司(company): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。游戏(game): 常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。
2023-05-27 21:40:29
25
原创 命名实体识别模型BERT-Bi-LSTM-CRF
序列标注的命名实体识别众多方法中将CNN、RNN和BERT等深度模型与条件随机场CRF结合已经成为最主流和普遍的方法,在本篇文章中我们仅关注基于CRF的序列标注模型。[机器学习]:早期传统机器学习时代,除了利用人工规则的方法外,往往利用隐马尔科夫链HMM和条件随机场CRF进行实体标注;随着深度学习的发展,将CNN和RNN做为基本的文本特征编码器,更好的学习token或word的隐层表示,再利用CRF进行实体标签分类,Bi-LSTM-CRF是最常用和普遍的实体识别模型;[预训练模型]
2023-05-27 21:31:32
22
原创 Anaconda中安装指定版本的tensorflow1.14.0/tensorflow-gpu1.14.0
在运行github中一个项目时,由于其使用的tensorflow的版本是1.14.0,而我的版本是2.6.0的版本,因为版本过高导致运行失败,所以需要。即删除高版本的tensorflow,当然,你也可以不删除,那么你就需要创建新的运行环境。即可将环境降到python3.7。注意:install后面是你之前下载的文件的路径。注意:虽说上面提示可以使用。
2023-05-25 23:35:00
15
原创 基于医疗知识图谱的问答系统
由于之前用Rasa构建过对话系统,因此一直想脱离Rasa这个开源框架,从底层开始构建一个可以实现相似功能的对话系统,毕竟框架用的再溜,都不如自己做一遍。恰巧在Rasa群里看到了 @王乐 前辈分享的一个项目:基于知识图谱的医疗诊断知识问答系统,先看了一遍视频,然后把代码下载下来,自己实现了一遍,遇到不懂得地方就再看视频,现在基本把这个项目搞明白了,写个总结分享一下,后期会在现有的基础上做一些横向拓展。由于前辈已经有了视频讲解(项目主页有视频链接),我的总结和分享尽量避开已有的讲解内容,避免重复。因此建议本文和
2023-05-25 01:02:16
31
原创 解决Ubuntu报错 E: Unable to locate package yum【yum是Centos的安装命令,不建议在Ubuntu中安装,Ubuntu中使用apt-get】
镜像下载、域名解析、时间同步请点击开门见山,Ubuntu的包管理工具是apt-get,所以不必再安装yum。如果要安装其他包需要使用apt-get命令。下文就是问题解决的全过程了。
2023-05-22 10:22:05
16
原创 基于FAQ的智能问答(一): Elasticsearch的调教
如果引入了IK分词器,会自动引入一个中文的词典:elasticsearch-analysis-ik/config/main.dic但是,这个词表还是有局限的。针对例子: "美甲上门服务", 以下是ik的分词结果美甲上门服务 的IK分词结果可以看到切出了一个很奇怪的词语: "甲上", 而最新的词的"美甲"是没有被正确切分的。所以检索“美甲”检索到的结果会很靠后,只有“美” 命中。同时“美甲”不能高亮显示。经查证:“甲上”确实是IK中自带的一个词IK的词典。
2023-05-21 23:55:32
33
2
原创 基于FAQ的智能问答(二): 召回篇
基于FAQ的智能问答本质是一个信息检索的问题,所以可以简单划分成:召回+精排 两个步骤。召回的目标是从知识库中快速的召回一小批与query相关的候选集。所以召回模型的评价方法,主要侧重于和两个方面。本文将分享我们召回模型的逐步迭代过程,从最基础的“ES字面召回”到 “ES字面召回和向量召回”的双路召回模式。
2023-05-21 23:55:31
12
原创 Ubuntu Server 20.04 系统安装(九):ubuntu20.04 安装 Git LFS【通过git命令下载huggingface.io网站中的模型】
因工作需要,要使用Git LFS,主要参考了:Git LFS - large file storage | Atlassian Git TutorialGit Large File Storage (LFS) 使用 Git 内部的文本指针替换音频样本、视频、数据集和图形等大文件,同时将文件内容存储在 GitHub.com 或 GitHub Enterprise 等远程服务器上。通常用来管理大的二进制文件。Git LFS 通过将仓库中的大文件替换为微小的指针(pointer) 文件来做到这一点。在正常使用期
2023-05-19 14:31:28
24
原创 Ubuntu Server 20.04 系统安装(八):VScode远程连接服务器-过程试图写入的管道不存在-could not establist connection to【已解决】
电脑——C盘——用户——用户名——.ssh文件夹——删除known_hosts文件,即可解决。
2023-05-19 10:48:33
21
原创 解决git@github.com: Permission denied (publickey). Could not read from remote repository
提示:Hi xxx!账号,在settings下,SSH and GPG keys下new SSH key,然后将id_rsa.pub里的内容复制到Key中,完成后Add SSH Key。改为自己的邮箱即可,途中会让你输入密码啥的,不需要管,一路回车即可,会生成你的ssh key。(如果重新生成的话会覆盖之前的ssh key。找到问题的原因了,解决办法也就有了,重新生成一次ssh key ,服务端也重新配置一次即可。打开你刚刚生成的id_rsa.pub,将里面的内容复制,进入你的。在终端再执行以下命令。
2023-05-19 10:27:31
15
原创 Ubuntu Server 20.04 系统安装(三):Ubuntu硬盘分区、挂载
如:sdb 这样的是硬盘 sdb1 sdb2 这样的是分区,现在还没分区。输入这个命令就可以完成挂载,但是重启之后,硬盘需要重新挂载。推荐使用自动挂载,重启之后可以自动完成挂载。分好区之后可以看下,名字叫sdb1。可以看到这里有个未分区的4T硬盘。我在这下面创建一个文件夹,名字叫。找个位置挂载硬盘,我这里挂载到。重启之后也可以自动完成挂载。可以点图标进入,也可以去。4、设置开机自动挂载。
2023-05-19 00:37:31
54
原创 MegaRAID BIOS设置阵列
因为要做的是raid0所以每一个硬盘都在一个新的组中。7.选择那个下拉的倒三角,可以选择可以操作的硬盘组,然后添加到右侧的SPAN中。然后的效果,右上角就是阵列的信息,左下角是选择的使用存储空间大小。这个的中文意思是:在新虚拟硬件上的所有数据都会丢失,继续吗?的界面,或者在左侧的菜单栏中点击选中即可,可以看到物理磁盘。8.点击了之后就是下面这种效果,然后直接点击下一步。10.查看刚才的配置信息,然后同意即可。4.选择要操作的硬盘,然后添加到右边的。9.然后就来到了阵列的配置界面了。6.在上一步点击了之后。
2023-05-18 22:38:05
106
原创 Ubuntu Server 20.04 系统安装(六):Linux搭建frp服务,实现内网穿透服务,实现外网到内网的在线访问
frp 是什么?frp 采用 Golang 编写,支持跨平台,仅需下载对应平台的二进制文件即可执行,没有额外依赖。frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP、UDP、HTTP、HTTPS 等多种协议。可以将内网服务以安全、便捷的方式通过具有公网 IP 节点的中转暴露到公网。市面上一些主流的内网穿透工具有:Ngrok,Natapp,花生壳,Ssh、autossh,Frp,Lanproxy,Spike。这里介绍使用frp工具。搭建ngrok服务器,实现内网穿透服务。
2023-05-18 16:53:52
32
原创 为什么现在的LLM都是Decoder only的架构
会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only架构就是最优选择了。LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,在理论上是因为Encoder的。
2023-05-18 13:52:46
32
原创 最大信息系数(MIC)——大数据时代的相关性分析
最大信息系数(The Maximal Information Coefficient,MIC)是在互信息的基础上发展起来的,MIC方法能快速通过给不同类型的关联关系进行评估,从而发现广泛范围的关系类型,此算法的作者来自哈佛大学,并在生物学等数据上进行了成功的实验,相关成果公布在Science杂志上。,是指在样本量足够大(包含了样本的大部分信息)时,能够捕获各种各样的有趣的关联,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),或者说能均衡覆盖所有的函数关系。给定一个x乘y的网格G,令。
2023-05-17 16:04:26
100
原创 Ubuntu Server 20.04 系统安装(五):ubuntu20.04 TLS Server升级后安装了gnome桌面环境【卸载gnome流程】
【代码】ubuntu20.04 TLS Server升级后安装了gnome桌面环境。
2023-05-15 20:03:00
29
原创 Ubuntu Server 20.04 系统安装(二):为Ubuntu 20.04 设置静态IP
最近需要折腾K8S,而折腾K8S的第一步就是为每台主机设置静态IP, 本文以Ubuntu20.04为例,提供一种为Linux设置静态IP的简明教程。本文Ubuntu20.04开始被随机分配的ip为,我们的目的是,关闭自由分配的配置选项,将主机的IP设置为静态ip?第1步:把冰箱门打开 第2步:把大象装进去!第3步:把冰箱门关上和一样简单(手动狗头)
2023-05-15 19:49:34
170
原创 超微主板BIOS常见报错代码
超微主板BIOS自检时,部分问题会在显示器上输出,debug码会在屏幕的右下角以数字和字母组合的方式显示。详细的debug码解释可以参照"超微主板_AMI_BIOS_POST_Codes_for_Grantley_Motherboards.pdf"中内容,以下内容为个人总结。问题描述:BIOS自检卡07,IPMI可以正常获取IP地址,且可以连接使用。问题描述:显示器接主板集成VGA接口,开机后,显示器输出报错,且无法继续。BIOS自检时卡在此报错,进BIOS中识别到的内存容量减少。
2023-05-14 13:40:39
146
原创 Jenkins构建Maven项目
Jenkins中自动构建项目的类型有很多,常用的有以下三种:自由风格软件项目(FreeStyle Project)Maven项目(Maven Project)流水线项目(Pipeline Project)每种类型的构建其实都可以完成一样的构建过程与结果,只是在操作方式、灵活度等方面有所区别,在实际开发中可以根据自己的需求和习惯来选择。(PS:个人推荐使用流水线类型,因为灵活度非常高)
2023-05-14 00:00:14
94
原创 Docker容器--镜像、容器操作
镜像:类似虚拟机镜像容器:类似linux系统环境,运行和隔离应用。容器从镜像启动的时候,docker会在镜像的最上一层创建一个可写层,镜像本身是只读的,保持不变。仓库:每个仓库存放某一类镜像。
2023-05-13 21:12:21
18
原创 docker降级操作
可能会出现镜像文件或者容器丢失情况,这是因为降级之前,以前的docker服务可能被指定了文件存放路径,接下来把降级后的启动服务文件修改到原来的文件路径即可。找到之前存放的docker镜像文件,我的环境在/opt/data/docker,请以自己环境为准。操作如下命令更改镜像存储位置,重新读取。版本是docker20.10版本。根据提示,我去查了下我的。再查看镜像文件已读取到。}指定要降级的版本。安装完成后,查看版本。
2023-05-13 02:30:15
20
原创 docker 镜像源大全
部分国外镜像仓库无法访问,但国内有对应镜像源,可以从以下镜像源拉取到本地然后重改tag即可: Azure Container Registry(ACR)这里采用了阿里云的镜像加速器(需要阿里云账号进行登录),地址:阿里云 -> 容器镜像服务 -> 镜像工具 -> 镜像加速器。
2023-05-13 01:47:41
227
原创 DevOps发布链路:①本地源码(带有Dockerfile文件)->②Git仓库源码-Jenkins(CI)打包推送->③Docker镜像仓库-Rancher(CD,底层K8S)拉取镜像->④部署服务
DevOps发布链路:①容器技术Docker、②镜像仓库(阿里云镜像仓库)、③CI/CD平台(Jenkins+Rancher)、④Git仓库(Gitee)、⑤云服务器(阿里云ECS)
2023-05-12 22:40:46
48
原创 LORA的训练与使用
LORA的训练与使用LORA模型的是webui当下最重要的插件之一。要学习LORA模型的使用,首先要了解它的形成。Lora模型是通过制定少量图片经过训练构成的小模型,可以和大模型结合使用,干涉大模型产生的结果。安装lora模型有两个办法,一个是sd本身集成的lora系统,但是相对来说不太方便使用,一个 是通过插件安装的lora系统。插件的安装和使用如视频所示。LORA模型可以分类两类,角色模型和风格模型。
2023-05-12 14:20:42
173
原创 Ubuntu Server 20.04 系统安装(四):深度学习 GPU 环境配置(CUDA Toolkit 11.7+cuDNN v8.4.1)【重启生效】【安装后默认安装了gnome,需手动删掉】
方便起见,我们这里可以直接跳过 NVIDIA 显卡驱动的安装,因为安装 CUDA 的时候会自动安装。当然官方源下载速度是很慢的,如果有条件的可以开个网络代理,或者本地下载完成后再上传到服务器上进行安装。例如,普通用户要使用 PyTorch 环境,但他同时还需要安装 requests 包,直接在名为。跑耗时较长的任务时,可以打开 tmux 将任务挂起,即使你关闭了窗口,任务仍然在后台运行。开始安装之前,需要修改 apt-get 的镜像源,不然国内下载速度很慢。的环境里面是没有办法安装,因为缺少写入权限。
2023-05-12 02:40:51
226
原创 大模型“涌现”的思维链,究竟是一种什么能力?
所谓“涌现”,在大模型领域指的是当模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力。大家如果看过类GPT应用的翻车问题,会发现大多都是数学算术题、逻辑思考题等,这类需要精确推理的问题,而这正是思维链能够重点解决的。现在训练大语言模型的企业和机构很多,但能够训练出思维链并应用的很少。强大的逻辑推理是大语言模型“智能涌现”出的核心能力之一,好像AI有了人的意识一样。换句话说,只有解锁了思维链技术,大语言模型才有可能“涌现”,才能在“大炼模型”的竞争中具备能力优势。
2023-05-11 17:53:14
22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人