- 博客(26)
- 资源 (1)
- 收藏
- 关注
原创 模型结构解读:MMoE (Multi-gate Mixture-of-Experts)
MMoE(Multi-gate Mixture-of-Experts)是一种多任务学习模型,旨在同时优化多个相关但不完全相同的任务。传统方法通常为每个任务构建独立模型,导致任务间缺乏交互,而MMoE通过共享专家网络和任务特定的门控网络,有效捕捉任务间的相关性。MMoE的核心结构包括专家网络、门控网络和任务专用塔,每个任务的门控网络学习如何加权组合专家输出,以优化特定任务。文章还提供了MMoE的PyTorch实现代码,包括模型定义、训练步骤和示例使用,展示了如何通过多任务学习提升模型性能。
2025-05-11 19:52:07
625
原创 深度学习中常用的距离计算方法
距离度量的选择直接影响模型性能。理解数据特性(如维度、分布、稀疏性)是选择合适方法的关键。“我的数据最需要关注什么?或许答案就藏在合适的距离公式中。互动:你在项目中用过哪些距离计算方法?遇到过什么挑战?欢迎留言讨论!– 公众号持续更新:“北北文的自留地”
2025-04-03 09:30:00
765
原创 必须知道的进行LoRA微调时的小技巧
在PEFT的LoRA微调中,选择Query(Q)和Value(V)矩阵是最常见且经验证效果较好的做法。这主要是因为这两个矩阵对模型输出有更直接的影响,能够在有限的参数预算下实现更好的性能提升。然而,具体的选择还应根据任务特点、模型架构和可用资源进行调整,以达到最佳的微调效果。– 公众号持续更新:“北北文的自留地”相关阅读:https://blog.csdn.net/Hongyu_Liu/article/details/146581060?
2025-04-01 23:53:00
748
原创 深度学习中的常用下采样(Downsampling)方法
下采样是深度学习中一种常用的技术,用于减少特征图的空间维度,降低计算复杂度,同时提取更高级的特征。
2025-03-28 00:22:18
887
原创 关于LoRA必须知道的知识点
矩阵 A:使用均值为 0,标准差为 1/√R 的高斯分布初始化矩阵 B:初始化为全零矩阵训练开始时模型行为与原预训练模型一致(因为 ΔW = A·B = 0)训练过程稳定,避免了随机噪声梯度可以有效流动,使模型能够逐渐学习必要的适应性变化通过这种设计,LoRA 能够在极少量参数的情况下有效适应下游任务,同时保持训练的稳定性和效率。矩阵 A:使用均值为 0,标准差为1r1/\sqrt r1/r的高斯分布初始化矩阵 B:初始化为全零矩阵。
2025-03-28 00:20:30
831
原创 深度学习中的Dropout你了解多少
定义:Dropout是一种正则化技术,在训练过程中以一定的概率ppp随机将输入张量中的一些元素置为零。具体来说,每次前向传播时,零化的元素是独立选择的,且遵循伯努利分布。这意味着每个通道在每次前向传播中都会独立地被置零。说大白话:训练过程中输入Dropout的每个特征值都会有ppp的概率变成0,下边上代码演示。output = input * mask / (1-p) # 此处会对使用 1-p 结果做一个缩放,下文会解释该操作的原因# output中有大概有一半的数值变成了0。
2025-03-26 10:00:00
982
原创 内积、外积、哈达玛积——深度学习中常用的几种向量运算方法
通过对内积、外积和哈达玛积的分析,我们可以看到这些向量运算在深度学习中的重要性。它们不仅是数学上的抽象概念,更是实现高效算法和模型的基础。掌握这些运算方法,能够帮助我们更好地理解深度学习的核心原理,并在实际项目中应用自如。希望本文能为你在深度学习的探索之旅中提供有价值的参考和启发,点个关注,让我们一起在这个充满挑战与机遇的领域中不断前行!公众号:“北北文的自留地“ 持续更新!
2025-03-23 17:12:30
1036
原创 图像搜索中必须了解的分块处理法
系统将图像划分为多个区域,分别提取特征,然后综合这些特征来识别图像中的实体和内容。从上述实验可以看到“使用分块策略构建图像向量库”在局部搜整体这一场景中,可以使正样本获得更高的相似度得分。这种方法通过将图像分割成多个块,分别提取特征后再合并,既能保留图像的整体结构,又能减少变形的影响。均匀网格分割(如 3×3 或 4×4),或者动态网格分割,根据输入图像的大小动态调整网格。通过实验不同的分块大小、重叠程度和融合策略,可以找到最适合应用场景的配置。将商品图像分为多个区域(如上部、中部、下部或更细致的网格)
2025-03-21 10:45:00
871
原创 idea打包详解
1.点击File -> Project Structure2.选择打包类型3.指定jar包运行的main class,并指定生META-INF文件的位置(一般放在resource目录下)4.配置依赖包的存放目录:鼠标右击 < output root >创建libs文件夹,并将依赖包拖入libs文件夹(注:如果更改了依赖包的位置,class path中的内容必须做出对应的修改)5.检查各项配置 无误选择ok:框选位置依次表示为jar包名;jar输出位置;指定的编译文件,ma
2021-10-17 13:28:13
11532
原创 Linux 查看服务器cpu信息常用命令大全
查看物理CPU的个数cat /proc/cpuinfo |grep “physical id”|sort |uniq|wc -l查看逻辑CPU的个数cat /proc/cpuinfo |grep “processor”|wc -l查看CPU是几核cat /proc/cpuinfo |grep “cores”|uniq查看当前操作系统内核信息uname -a查看当前操作系统发行版信息cat /etc/issue查看逻辑CPU个数, 同时查看CPU型号cat /pro
2021-10-16 20:39:28
3084
转载 SpringBoot跨域问题
前言跨域问题,是web开发都绕不开的难题。但我们首先要明确以下几点跨域只存在于浏览器端,不存在于安卓/ios/Node.js/python/ java等其它环境跨域请求能发出去,服务端能收到请求并正常返回结果,只是结果被浏览器拦截了。之所以会跨域,是因为受到了同源策略的限制,同源策略要求源相同才能正常进行通信,即协议、域名、端口号都完全一致。浏览器出于安全的考虑,使用 XMLHttpRequest对象发起 HTTP请求时必须遵守同源策略,否则就是跨域的HTTP请求,默认情况下是被禁止的。换
2021-07-20 11:13:18
571
转载 AK/SK(aksk)鉴权原理简介
1、AK/SK 简介 AK:Access Key Id,用于标示用户; SK:Secret Access Key,是用户用于加密认证字符串和用来验证认证字符串的密钥,其中SK必须保密. 通过使用Access Key Id / Secret Access Key加密的方法来验证某个请...
2021-07-14 17:29:09
16986
2
转载 MongoDB命令之SplitVector实现并发数据迁移
背景 数据迁移是数据库运维中一个很常见的场景。数据迁移分为全量和增量。为了追求速度,通常我们会采用并发的方式对数据进行全量迁移。在全量导出数据时,通常都会选择做到记录级的并发,因此通常会涉及到对需要导出的某个表(集合)按照并发度进行切分(分区)的过程。现有常用做法是通过若干个skip加limit来找到一些分区点,然后就可以并发同时导出多个分区。事实上MongoDB还有一个SplitVec...
2021-07-01 15:24:06
723
转载 Cassandra CQL v3.3中文文档(一)
Cassandra Query Language (CQL)v3.3.0 1. Cql语法 1.1. 前言 本文档描述了CQL v3。CQL v3与CQL v2不兼容且在很多地方不同。 CQL v3提供了非常类似于SQL的数据模型,数据放在了包含rows和co...
2021-06-18 15:03:26
721
原创 ElasticSearch集群环境搭建
ES集群环境搭建1.检查jdk,准备安装包,确定安装路径2.创建es用户 : adduser elasticsearch3.修改配置文件: vim config/elasticsearch.yml#配置es的集群名称,默认是elasticsearch,#es会自动发现在同一网段下的es,# 如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。cluster.name: cell## ------------------------------------ Node -
2021-06-15 16:38:24
173
原创 linux中mysql配置安装
mysql安装1.准备工作 检查是否安装过mysql: #rpm -qa | grep mysql 如果有安装过,卸载并删除所有相关目录和文件: #rpm -e --nodeps XXXXXX #whereis mysql #find / -name mysql 检查mysql用户和组是否存在,如果没有,创建:[root@localhost /]# cat /etc/group | grep mysql[root@localhost /]# cat /etc/pas
2021-06-15 16:35:58
174
原创 zookeeper环境搭建
zk环境搭建1.检查jdk,准备安装包,确定安装路径2.解压安装包到指定目录3.修改配置文件 zoo.cfg①、tickTime:基本事件单元,这个时间是作为Zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,每隔tickTime时间就会发送一个心跳;最小 的session过期时间为2倍tickTime②、dataDir:存储内存中数据库快照的位置,除非另有说明,否则指向数据库更新的事务日志。注意:应该谨慎的选择日志存放的位置,使用专用的日志存储设备能够大大提高系统的性能,如果将
2021-06-15 16:32:26
191
原创 redis单点环境搭建
redis单点环境搭建1.解压安装包到指定目录2.编译安装:make PREFIX=/usr/local/redis/redis-5.0.5 install3.修改配置文件:vim redis.conf1.requirepass:配置redis登录密码 X6zA^8#V6u2.bind:配置ip redis.conf中,bind默认绑定的ip为127.0.0.13.port:配置端口号 80314.protected-mode:设置保护模式5.daemonize:表示是否在后台启动re
2021-06-15 16:23:51
331
原创 linux安装jdk
安装jdk1.检查是否有自带的jdk: #java -version 如果有的话删除: #rpm -qa | grep java #rpm -e --nodeps XXXXXX如果删除不干净:yum -y remove XXXXXX2.准备安装包,到安装目录下解压安装包: #tar -zxvf jdkXXXX.tar.gz3.配置环境变量: #vim /etc/profile 文末添加:# java environmentexport JAVA_HOME=/usr/
2021-06-15 16:20:28
1462
2
原创 服务器免密配置
备用密码:Sdzhsq#2019!@#Jm$t3HBHQy7tymOI#FrcCkgsfNlnLKdmmore /etc/profile端口8000-10000manager用户免密(已完成), jdk(已完成), redis(88单点已完成), zk(已完成)防火墙安装包目录:/home/manager/soft安装目录:/usr/local/免密(已完成):生成密钥(输入命令之后能看懂提示就根据提示来,看不懂没关系一路回车就行,生成的密钥默认保存在当前用户的家目录下的.ssh文件夹下)[l
2021-06-15 16:17:08
318
原创 java中IO流的简单应用-java基础(递归遍历 处理异常 数代码)
总结一下,整个程序中复习了**IO流**的内容,这次主要使用了**字符流**不过其他的也大体浏览了一下;复习了时间系统的一些类和方法比如**java.util.Date**类和数据库中的**java.sql.Timestamp**;期间也回忆了异常的处理的知识点。总的来说感觉还行,以后有机会再将它进一步优化一下,争取加上UI界面,哈哈哈。。。。
2019-08-29 00:19:13
289
转载 使用mysql自带工具mysqldump进行全库备份以及source命令恢复数据库
mysql数据库提供了一个很好用的工具mysqldump用以备份数据库,下面将使用mysqldump命令进行备份所有数据库以及指定数据库一、mysqldump一次性备份所有数据库数据/usr/local/mysql/bin/mysqldump -u用户名 -p密码 --all-databases &gt; /保存路径/文件名.sql注意:以上命令直接在控制台输入即可,无须登录进入数据库操作界...
2019-03-08 17:33:09
1537
2
原创 通过shell界面访问其他机器mysql数据库的方法
假设10.161.110.9为服务器10.161.110.8为本机ip首先你要在本机上通过shell 界面能够ping通服务器的ip;运行-&gt;cmdping 10.161.110.9检查是否能ping通把两台电脑的IP设置在同一个网段, 如:192.168.1.2 ,192.168.1.3。。。。。子网:255.255.255.0 网关:192.168.1...
2019-03-08 17:22:31
1560
转载 linux下的定时任务
最近在开发某个应用程序时需要多次测试,但是每次编译源代码的时间较长,导致开发效率很低。所以考虑在服务器上Linux系统中添加一个定时任务,每天自动执行某个脚本实现自动编译。实现方法如下:在LINUX终端中先输入crontab -e,然后就会有个vi编辑界面,再输入0 3 * * 1 ./linux_run_all.sh 内容到文件里面 ,然后保存退出。在终端中输入 crontab -l ,...
2018-09-12 09:33:35
238
原创 Yarn功能简介
我对yarn的理解Yarn是一种新的hadoop资源调度器。yarn的基本思想是将JobTracker的两个功能(资源管理和作业调度/监控)分离开来,主要的方法是创建一个全局的RM和若干个针对应用程序的AM。(应用程序指的是MR作业或者是作业的DAG) Yarn的主要构件有:ResourceManager(RM),ApplicationMaster(AM),NodeManger(NM...
2018-04-25 18:51:21
4369
原创 Java中String的常用API
1String(cahr[] value)构造器 传入一个字符数组生成一个字符串对象2charAt(int index)通过下标得到字符串中相应位置的字符3compareTo(String anotherString)按字典顺序比较两个字符串compareToIgnoreCase(String str)
2017-11-07 23:47:42
1265
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人