- 博客(300)
- 资源 (11)
- 收藏
- 关注
原创 BGE-M3 文本情感分类实战:预训练模型微调,导出ONNX并测试
本文介绍了如何基于BGE-M3开源模型实现一个简单的二分类情感分析任务,展示了NLP中经典的“预训练 + 微调”范式。首先,加载预训练模型和分词器,并构建分类头整合到模型中。接着,进行数据预处理并构建DataLoader。然后,定义优化器、损失函数和训练循环,进行模型微调。微调过程中,可以选择基于[CLS] token的单特征提取或基于池化策略的多特征融合。最后,通过验证与推理评估模型性能,并导出ONNX模型以适应生产环境。BGE-M3在语义表征任务中表现优异,适合作为文本分类、语义搜索等下游任务的基础模型
2025-05-22 20:24:27
163
原创 语义向量的形状:各向异性与锥形分布
更具体的案例说明:在“典型案例与研究”部分,可以更具体地描述研究发现或模型改进的细节,例如BERT各向异性具体体现在哪些维度上,T5是如何通过标准化和对比学习缓解问题的。更清晰的结构化呈现:虽然你的结构已经很清晰,但可以考虑在每个主要部分(概念、成因、影响、应对策略)内部使用更细致的编号或项目符号,使信息层级更加分明。关键术语的强调:对于核心术语,例如“语义主轴”、“低维流形”、“向量退化”等,可以在首次出现时进行强调(例如加粗),方便读者快速抓住重点。
2025-04-24 08:29:25
852
原创 Transformer中Post-Norm和Pre-Norm如何选择?
这种路径的核心作用是保留原始输入的信息,并通过残差连接(Residual Connection)等机制帮助梯度更顺畅地反向传播,避免深层网络中的梯度消失问题。其中第二项的方差由于有 norm 是不随层数变化的,于是 x 的方差会在主干上随层数积累。到了深层以后,单层对主干的影响可以视为小量,而不同层的 f 统计上是相似的,于是有。这样训练出来的深层 ResNet or Transformer,深层部分实际上更像扩展了模型宽度,所以相对好训练,但某种意义上并不是真正的 deep.
2025-04-21 21:58:40
677
转载 开源:DeepSeek-R1 蒸馏数据集(110k)
开源:DeepSeek-R1 蒸馏数据集(110k)开源在了 Hugging Face 和 ModelScope 上,有直接SFT使用的版本,可直接下载本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。该中文数据集中的数据分布如下:Math:共计36987个样本,Exam:共计2440个样本,STEM:共计12000个样本,General:共计58573,包含弱智吧、逻辑推理、小红书、知乎、Chat等。
2025-02-20 14:32:35
233
原创 机器学习指标:准确率、精准率、召回率、F1、ROC曲线、AUC曲线
还是拿之前的例子,总样本中,90% 是正样本,10% 是负样本。这里,TPR 只关注 90% 正样本中有多少是被真正覆盖的,而与那 10% 毫无关系,同理,FPR 只关注 10% 负样本中有多少是被错误覆盖的,也与那 90% 毫无关系,所以可以看出:如果我们从实际表现的各个结果角度出发,就可以避免样本不平衡的问题了,这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。这样不利于模型的学习。
2024-10-19 20:49:21
1389
原创 Ubuntu22.04安装cudnn详细步骤
注意,这里的libcudnn8和cuda版本的配对是指定的,可通过apt-cache policy libcudnn8命令查看。
2024-09-26 16:54:36
1316
1
原创 如何创建模板提示prompt
它的目的是根据不同的输入动态生成特定格式的文本,以便为大语言模型(如GPT)提供更清晰、结构化的指令或上下文。如何创建模板提示:方式一:PromptTemplate(input_variables=[], template=“Tell me a joke.”),这种要写input_variables。
2024-09-19 17:56:20
1767
原创 大模型框架xinference的本地安装注意事项
这时候你在浏览器打开http://host-ip:9997/应该可以看到xinference的界面了。根据系统选择官方编译后的whl下载进行离线安装。这样,下载源就换为阿里的源了,同时服务也开启了。
2024-09-11 16:36:03
1709
原创 本地源码方式部署启动MaxKB知识库问答系统
此命令应列出所有可用的扩展。专门查找 pgvector.control .python 版本大于3.11。初始的账号admin 密码。登录之后会提示你修改密码。
2024-09-11 16:34:32
981
原创 pip install pyaudio时, src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录
ubuntu 22。
2024-08-27 16:41:20
314
原创 fatal: unable to access ‘https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/‘: Failed to
如果你曾设置过代理,便会在再设置代理时遭遇此错误。使用 --unset-all 替代 --unset 即可解决。
2024-07-26 09:26:13
676
原创 MediaDevices.getUserMedia` undefined 的问题
通过传递相应参数来启动 Chrome Insecure origins treated as secure flag 并填入相应白名单。
2024-07-17 17:23:02
379
原创 BM25算法, Best Matching
BM25 其实是一个(准确说,是一系列)经验公式,这里面的每一个环节都是经过很多研究者的迭代而逐步发现的。很多研究在理论上对 BM25 进行了建模,从“概率相关模型”(Probabilistic Relevance Model)入手,推导出 BM25 其实是对某一类概率相关模型的逼近。从结果上看,我们应该明了 BM25 权重计算公式,已经在众多的数据集和搜索任务上,被极其高频广泛和成功地使用。BM25 算法公式由三个主要的模块构成,包括。
2024-05-13 17:51:32
1600
原创 文本生成任务的评价方法BLEU 和 ROUGE、BERTScore
BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。这两种指标虽然存在着一些问题,但是仍然是比较主流的评价指标。
2024-04-20 20:22:05
5898
原创 gemma 大模型(gemma 2B,gemma 7B)微调及基本使用
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行,无需数据量化处理,拥有高达 8K tokens 的处理能力:它们是文本到文本的、仅解码器的大型语言模型,提供英语版本,具有开放的权重、预训练的变体和指令调优的变体。Gemma模型非常适合执行各种文本生成任务,包括问答、摘要和推理。
2024-03-28 21:41:31
13813
8
原创 Transformers 直观解释——不仅是如何工作,而且为什么工作得这么好
查询Q和键K之间的点积计算每对单词之间的相关性。然后将该相关性用作“因子”来计算所有值V的加权和。该加权和作为注意力分数输出。Transformer 学习嵌入等,从而使彼此相关的单词更加对齐。这是引入三个线性层并为查询、键和值创建三个版本的输入序列的原因之一。这为注意力模块提供了更多参数,它可以学习这些参数来调整词向量的创建。
2024-03-27 22:36:02
911
原创 postgres 登录及常用命令
PostgreSQL默认会创建一个postgres的数据库用户作为数据库的管理员。将sqlScript.sql导入到名为database的数据库中。
2023-12-06 18:43:44
2460
原创 Paraformer 语音识别原理
模Paraformerr的组成:Encoder(编码器),Predictor(预测器),Sampler(采样器),Decoder(解码器),loss function。
2023-11-30 17:23:54
4116
原创 NLP中 大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT
在过去几年的探索中,业界发现了一个现象,在增大模型参数量和训练数据的同时,在多数任务上,模型的表现会越来越好。因而,现有的大模型LLM,最大参数量已经超过了千亿。然而,增大模型参数规模,对于一些具有挑战的任务(例如算术、常识推理和符号推理)的效果,并没有太大提升。对于算术类推理任务,我们期望模型生成自然语言逻辑依据来指导并生成最终答案,但是获得逻辑依据是比较复杂昂贵的(标注成本层面)。
2023-11-24 22:19:47
6747
原创 python reportlab生成pdf
这里自定义了pagetemplate,使用BaseDocTemplate,但我感觉一般使用SimpleDocTemplate就可以。
2023-09-26 09:15:34
829
原创 redis配制redis-static-server
3.将“protected-mode yes”改成“protected-mode no”。1.打开redis的配置文件“redis.conf”。2.将“bind 127.0.0.1”注释掉。5.重启redis服务即可。4.添加以下一行代码。
2023-09-06 10:50:59
541
原创 update-alternatives 下安装cudnn
dpkg -l查找,若要查找对应的package,可以加通配符,如查找包含fox的package。注意,卸载时候是package_file.deb对应的package name。这种方式不适合在“update-alternatives”下安装。但是这里对libcudnn8不合适,不知道为什么。“update-alternatives”下安装。如果没有驱动,那么就需要手动安装显卡驱动了。若不知道package name,可以通过。查看是否安装NVIDIA显卡。程序会被解包到var目录下。
2023-07-24 16:29:22
326
原创 ubuntu重启:A stop job is running for Advanced key-value store
这个按理说应该可以但是不行,最后让我把redis卸载了,才可以了。
2023-07-20 17:09:19
685
原创 Ubuntu中使用update-alternatives实现多版本CUDA切换,卸载cuda 、cudnn
Ubuntu中使用update-alternatives实现多版本CUDA切换
2023-07-20 16:37:56
1316
原创 项目化思维
利用WBS(名词)制定计划,是行动,动词。D:Deliverables 可交付物。I:Influencer关键影响人。A:Acceptance 成功标准。最底层可交付物是工作包:是名词。最大的风险就是没有分险意识。P:Purpose目的。
2023-07-19 16:27:57
796
原创 搭建Git本地服务器及其使用
GitHub就是一个免费托管开源代码的远程仓库。但是对于某些视源代码如生命的商业公司来说,既不想公开源代码,又舍不得给GitHub交保护费,那就只能自己搭建一台Git服务器作为私有仓库使用。搭建Git服务器需要准备一台运行Linux的机器,强烈推荐用Ubuntu或Debian,这样,通过几条简单的apt命令就可以完成安装。假设你已经有sudo权限的用户账号,下面,正式开始安装。
2023-07-05 15:43:07
8482
原创 CTCLoss如何使用-引用
CTC(Connectionist Temporal Classification)主要是处理不定长序列对齐问题,而CTCLoss主要是计算连续未分段的时间序列与目标序列之间的损失。CTCLoss对输入与目标可能对齐的概率求和,产生一个相对于每个输入节点可微分的损失值。假设输入到目标的对应关系是“多对一”的,那么这限制了目标序列的长度,因此目标序列的长度必须是小于或者等于输入长度。
2023-06-29 15:29:26
147
原创 Nextcloud实现协同办公 -V2
V1在这里:https://blog.csdn.net/philosophyatmath/article/details/130594037。V2没有继续使用onlyoffice而是使用nextcloud office。
2023-06-28 16:48:15
1344
原创 vcpkg
./vcpkg install boost --triplet=x64-mingw-dynamicYou can simply use one of the mingw triplets. (x64|x86)-mingw-(dynamic|static), e.g. x64-mingw-dynamic.You need to tell vcpkg which triplet to use via the following variables:export VCPKG_DEFAULT_TRIPLET=x6
2023-06-25 14:47:24
439
原创 TypeError: Cannot read properties of undefined (reading ‘apply‘) vue-router
环境:“webpack”:“5.76.2”,“vue”: “^3.2.47”
2023-03-24 11:31:34
364
HTK语音识别
2017-03-22
数理统计与数据分析 第3版
2015-11-24
基于jersey v2.10的webservice核心框架
2014-07-24
Eclipse Rich Client Platform 2nd Edition with Source Code.zip
2014-05-12
kpca 核主成分分析
2010-12-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人