![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML&DL&NLP
文章平均质量分 91
木尧大兄弟
自然语言处理/大语言模型/深度学习/机器学习/AIGC/编曲混音
展开
-
Qwen2 技术报告(中文版)
这篇技术报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型系列中的最新成员。我们发布了一套全面的基础和指令调整语言模型,参数范围从0.5b 到 72b,包括稠密模型和专家混合模型。Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中,超越了大多数以前的开放权重模型,包括其前身Qwen1.5,并且与专有模型表现出竞争力。原创 2024-07-17 10:23:21 · 2112 阅读 · 0 评论 -
大模型中 KV Cache 原理及显存占用分析
大模型推理阶段 KV Cache 的原理及显存占用情况。原创 2024-07-12 00:02:23 · 905 阅读 · 0 评论 -
lr_scheduler_type 参数取值:学习率调度器(Learning Rate Scheduler)和优化器(Optimizer)
优化器和学习率调度器是 LLM 训练中的两个重要组件。优化器负责参数更新,而学习率调度器通过动态调整学习率来优化训练过程。原创 2024-05-30 11:52:11 · 1643 阅读 · 0 评论 -
缓解大模型幻觉问题的解决方案
描述了幻觉的定义、产生原因、评测方法;并从产品侧、数据侧、模型侧介绍如何缓解大模型幻觉,并介绍了通过高级 prompt 和 RAG 等方法进行大模型幻觉的缓解。原创 2023-10-29 22:14:30 · 1922 阅读 · 0 评论 -
使用huggingface微调预训练模型
Huggingface 微调预训练模型原创 2023-02-27 16:29:28 · 1131 阅读 · 0 评论 -
图像超分辨率模型:Real-ESRGAN | 论文阅读+实战记录
最近需要一个超分的模型,经过调研准备用 Real-ESRGAN。特此记录论文阅读和实战过程。原创 2022-11-23 11:23:47 · 3003 阅读 · 3 评论 -
AI 作画:Stable Diffusion 模型原理与实践
本文首先简单介绍 Stable Diffusion 模型结构 Latent Diffusion 的论文和博客,然后介绍模型的训练和推理技术细节(不含数学推导),接着介绍几个 prompt 搜索引擎等实用工具,最后简单介绍 AI 作画(图像生成)的发展史,并测试了 Stable Diffusion 不同风格和 prompt 的生成样例。原创 2022-10-17 11:11:27 · 2313 阅读 · 0 评论 -
基于 huggingface diffuser 库本地部署 Stable diffusion
Stable Diffusion 是用 LAION-5B 的子集(图像大小为512*512)训练的扩散模型。此模型冻结 CLIP 的 ViT-L/14 文本编码器建模 prompt text。模型包含 860M UNet 和123M 文本编码器,可运行在具有至少10GB VRAM 的 GPU 上。接下来实战一下本地部署。原创 2022-10-10 15:02:04 · 14038 阅读 · 7 评论 -
CLIP论文阅读、zero-shot实验、linear prob实验记录
记录 CLIP 论文阅读、zero-shot实验(直接推理)、linear probe实验(冻结CLIP抽特征只训练分类层)。原创 2022-09-26 15:22:21 · 3755 阅读 · 2 评论 -
记录一下 cuda、torchinfo、gpustat 相关知识
记录一下关于 cuda 显存分配、使用 torchinfo 查看模型参数量,以及使用 gpustat 查看显存占用及进程信息等知识。原创 2022-08-23 11:25:56 · 996 阅读 · 0 评论 -
huggingface Tokenizers 官网文档学习:tokenizer训练保存与使用
本文分享学习 huggingface Tokenizers 库记录。我分成了五大主题:- 从头快速训练一个 tokenzier- 如何使用预训练好的 tokenzier- Tokenization 四大过程详解- BERT tokenizer 训练保存编解码全流程- 语料库分批加载与处理...原创 2022-08-12 19:33:48 · 9105 阅读 · 4 评论 -
huggingface Tokenizers 官网文档学习:分词算法分类与五个子词级分词算法
首先介绍三大类分词算法:词级、字符级、子词级算法;然后介绍五种常用的子词级(subword )算法:BPE、BBPE、WordPiece、Unigram、SentencePiece。原创 2022-08-12 11:20:29 · 1551 阅读 · 0 评论 -
使用 Gradio 在 huggingface 创建应用 Space
之前内部用 swagger + flask(flasgger) 来演示模型功能,感觉 flasgger 做出来太丑了,而且配置起来麻烦,所以寻找替代方案。streamlit和gradio。gradio 跟 huggingface 仿佛有某种交易,两边官方文档商业互吹,所以感觉部署到 huggingface 时适配起来应该更顺滑。于是学习一下 gradio,并把要演示的几个模型使用 gradio 做成 app 的形式。...原创 2022-08-04 17:43:16 · 6516 阅读 · 6 评论 -
基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读
本文解读一下 huggingface transformers 库的 generate() 函数中各个参数的含义,以及常用的 Greedy Search、Beam Search、Sampling(Temperature、Top-k、Top-p)等各个 decoding 算法的原理。原创 2022-07-25 17:26:49 · 51711 阅读 · 14 评论 -
Evaluate:huggingface评价指标模块入门详细介绍
evaluate 是huggingface在2022年5月底搞的一个用于评估机器学习模型和数据集的库,需 python 3.7 及以上。包含三种评估类型:pip安装:源码安装:检查是否装好(会输出预测结果Dict):三、使用3.1 load方法evaluate中的每个指标都是一个单独的Python模块,通过 evaluate.load()(点击查看文档) 函数快速加载,其中load函数的常用参数如下:3.2 列出可用指标list_evaluation_modules 列出官方(和社区)里有哪些原创 2022-06-23 09:59:12 · 10217 阅读 · 3 评论 -
Transformer、BERT、GPT 论文精读笔记
前言最近被安排带几个学生搞基于预训练模型的文本生成课题,想给他们准备点学习资料,找的是沐神在B站的论文精读,于是自己先看了一遍,对视频质量把把关(事实证明根本不用把关,并感慨自己读研时为啥没有遇到这么nice的视频),顺便借此机会重温一下这几篇经典 paper。TransformerAttention is all you need.论文地址:https://arxiv.org/pdf/1706.03762.pdf视频地址:https://www.bilibili.com/video/BV1pu原创 2022-05-03 13:44:10 · 1266 阅读 · 0 评论 -
AI中台序列标注任务:三个数据集构造过程记录
数据介绍人民日报命名实体识别数据集(example.train 28046条数据和example.test 4636条数据),共3种标签:地点(LOC), 人名(PER), 组织机构(ORG)时间识别数据集(time.train 1700条数据和time.test 300条数据),共1种标签:TIMECLUENER细粒度实体识别数据集(cluener.train 10748条数据和cluener.test 1343条数据),共10种标签:地址(address),书名(book),公司(company)原创 2022-01-27 17:23:29 · 1645 阅读 · 0 评论 -
使用sklearn实现k-means聚类
一、原理初始化选取n个聚类中心,然后遍历每个点,算当前点离哪个聚类中心近就属于哪簇重新计算各簇点的质心,更新n个聚类中心重复迭代,直到各个聚类中心位置稳定二、实现代码(手写数字数据集)import matplotlib.pyplot as pltfrom sklearn.datasets import load_digitsfrom sklearn.cluster import KMeansprint('导入数据')digits = load_digits()d...原创 2020-05-09 15:37:34 · 4519 阅读 · 0 评论 -
pyhanlp机构名识别时动态添加自定义词表(CustomDictionary)
参考:pyhanlp官方Github中的demo1.加载模型并写入自定义机构名from pyhanlp import HanLP, CustomDictionarysegment = HanLP.newSegment("crf").enableOrganizationRecognize(True)CustomDictionary.add("武汉病毒所", "nt")2.提取机...原创 2020-05-08 13:10:19 · 1446 阅读 · 0 评论 -
入坑Abstractive Summarization:文本摘要CNN/DM数据集
几个CNN/DM数据集的地址:【万x之源】最初版本的CNN/DM:https://cs.nyu.edu/~kcho/DMQA/ 下图大兄弟用来创造非匿名数据集的代码:https://github.com/abisee/cnn-dailymail(为啥不直接给出处理完的数据集呢?作者说“出于法律原因”,毕竟不是自己的数据嘛,可以理解~) 这位兄弟迎♂而上!提供了分词完事儿的数据:https...原创 2020-03-18 23:23:21 · 9916 阅读 · 19 评论 -
lfw数据集自定义路径加载
Step1:在下面网站下载lfw-funneled.tgzhttp://vis-www.cs.umass.edu/lfw/#downloadStep2: 指定目录,并在该目录下新建lfw_home文件夹,运行,产生lfw-funneled.tgz 立即终止。from sklearn.datasets import fetch_lfw_peoplefaces = fetch_...原创 2019-10-12 10:09:16 · 2067 阅读 · 0 评论 -
【已解决】tensorboard运行与使用:TensorBoard不是内部或外部指令也不是可运行的程序
前提:tensorflow环境已搭建步骤(3步搞定):1.找到“tensorboard.exe”所在目录(找不到直接用搜索,一般在python运行环境目录中),输入cmd回车打开。2.找到运行程序的日志输出路径(一般在项目目录中),复制路径地址。3.cmd框中键入命令:tensorboard --logdir=日志路径地址,回车,把红框内的网址复制到浏览器打开,搞定。...原创 2018-08-06 09:17:14 · 7218 阅读 · 7 评论 -
自然语言处理(NLP)领域学术会议
转载于:https://blog.csdn.net/nuoline/article/details/8610774和https://blog.csdn.net/sinat_29694963/article/details/805911231. 国际学术组织、学术会议与学术论文 自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(com...转载 2019-03-30 20:27:36 · 2092 阅读 · 0 评论 -
【ACL2019论文解读】Self-Supervised Learning for Contextualized Extractive Summarization
论文:https://arxiv.org/pdf/1906.04466.pdf源码:https://github.com/hongwang600/Summarization摘要:现存摘要抽取模型大都用交叉熵损失(刻画两个概率分布的距离)从零训起,难以捕获文档级别的全局上下文特征。本文引入三个预训练任务,用自监督(self-supervised)方法捕获文档全局特征。使用CNN/Dail...原创 2020-06-15 17:44:02 · 978 阅读 · 0 评论 -
NCBI:美国国立生物技术信息中心大型数据库
NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源。NCBI资源包括Entrez、Entrez编程组件、MyNCBI、PubMed、PudMed Central、PubReader、Gene、the NCBI Taxonomy Browser、BLAST、P...转载 2019-07-05 21:01:26 · 8005 阅读 · 0 评论 -
sklearn机器学习的流程
以KNN为例:from sklearn.neighbors import KNeighborsClassifierimport numpy as npX_train = np.array([[3.393533211, 2.331273381], [3.110073483, 1.781539638], [1....原创 2019-10-07 14:12:49 · 237 阅读 · 0 评论 -
基于LDA模型的邮件主题分类
资源地址:希拉里邮件7000封左右,Emails.csv运行环境:windows10(64bit) + python3.6 + pycharmPython源代码:import warningswarnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')import pandas as...原创 2018-07-19 11:54:03 · 2430 阅读 · 0 评论