- 博客(28)
- 收藏
- 关注

原创 [论文品鉴] DeepSeek V3 最新论文 之 DeepEP
继续介绍DeepSeek上月发布的关于V3的论文之前几篇文章已经把V3这张架构图中的原理介绍的7788了,接下来介绍更底层的。
2025-06-10 09:22:45
591

原创 [论文品鉴] DeepSeek V3 最新论文 之 FP8混合精度训练
继续介绍DeepSeek最近发布的关于V3的论文,且依然会结合年初的论文一起,同时也参考了17年混合精度训练的经典论文。
2025-05-28 09:28:32
972

原创 [论文品鉴] DeepSeek V3 最新论文 之 MTP
继续介绍DeepSeek最近发布的关于V3的论文,且依然会结合年初的论文一起。下面DeepSeek-V3的这张架构图,前两篇文章已经分别介绍了的MLA和MoE,剩下最后的一块内容就是的MTP了。
2025-05-25 18:31:34
572

原创 [论文+源码] DeepSeek V3 最新论文 之 DeepSeekMoE
继续介绍DeepSeek上周三发布的关于V3的论文,今天要说的是。本文还会结合24年的论文与的 21年的论文。
2025-05-22 08:13:08
845

原创 [论文品鉴] DeepSeek V3 最新论文 之 MHA、MQA、GQA、MLA
DeepSeek本周三发了篇关于V3的论文,算是年初论文的姊妹篇;主要讲解了,DeepSeek团队如何通过软硬件相结合的方式,只需要2048块Nvidia H800就可以训练出v3。下图是V3的基础架构,要想做到透彻理解,所需的知识储备也挺多挺杂的,所以决定通过多篇文章来“品鉴”;今天介绍MLA,但又不能只说MLA,需要把整个“family 累A”(我超好尬)都介绍一下,也包括MHAMQAGQA。
2025-05-18 12:36:21
740

原创 [工欲善其事] LoRA
一直有关注公司在LLM领域的相关新闻,订阅的“抱脸虫”推送了一个feed,看了下是公司开源了一个语音交互模型(text to speech)但介绍里只有简单的一句 “从千问微调来的”,所以并不清楚都做了哪些工作,觉得公司在宣发方面还是太低调了,一如既往的闷头做事。正好近期在复习LLM相关知识,也没有计划太系统的复习路径,所以就看到什么复习什么,今天就说说LoRA。
2025-05-15 09:32:48
634

原创 [白话文] 从百草园RLHF到三味书屋DPO
原创不易,特别是手打Latex简直要了命了,转载请注明出处。-- 鲁迅说的周五看到学城有部门同事分享DPO实践,写的非常好,但总感觉有点太“学术”了,知识分享更应该考虑如何让观众接受(毕竟不是发论文),特别是DPO公式推导部分简单的一笔带过很不过瘾,所以想尝试用比较通俗易懂的白话、偏感性的描述一下我的理解。
2025-05-10 11:07:26
728

原创 Github Arctic Code Vault 哈哈 自己的项目被存储在北极 1000年
今天像往常一样登陆自己的Github,突然发现左下角有个新的勋章 Arctic Code Vault Contributor,点进去才发现大事不妙 ????什么是 GitHub Code Vault,是Github发起的一个项目,旨在保存人类开源代码1000年,并封存在北极!第一批被选中的开源项目已经完成了封存Github从2020-02-02之前的开源项目中选取了一批,并生成快照存储于特殊的交卷中,封存在北极的一个退役的矿坑中,存上个1000年… 被选中的项目贡献者,会获得一枚北极代码库贡献者
2020-09-14 09:36:59
1509
原创 从利用Arthas排查线上Fastjson问题到Java动态字节码技术(下)
从Arthas的源码引出了Java动态字节码技术,那么这一篇就从几种Java字节码技术出发,看看Arthas是如何通过动态字节码技术做到无侵入的源码增强;Java大部分情况下都是解释执行的,也就是解释.class文件,所以如果我们想对原代码进行增强的话,直接接的手段便是从源文件.java入手,使用静态代理、动态代理、装饰器等设计模式进行功能增强。但很多时候我们作为第三方,没有机会、不方便拿到源码时,这条路就走不通了;此时如果还是想继续其进行功能增强的话,那么只剩一条路了,就是直接对.class文件下手。
2023-09-17 08:34:16
285
原创 通过图数据库 Neo4J 建立疫情行动轨迹及接触关系图
最近疫情反复,我被为拜托建一张“某某行动轨迹及接触关系图”。这类行动轨迹或接触关系,可以抽象成网或者图,从这类图结构立刻就会联想到图数据库Neo4J,正好并没有在公司电脑上安装和使用过Neo4J,于是在这里简单记录下,整个过程还是非常简单的,10min之内即可搞定。Neo4J 安装 & 启动选择通过docker镜像进行安装,首先打开 DockerHub,搜索Neo4J。这里选择最新版本即可,拉取镜像 docker pull neo4j$ docker image ls neo4jREP
2021-08-09 07:32:49
1219
2
原创 从利用Arthas排查线上Fastjson问题到Java动态字节码技术(中)
上一篇文章 中通过对一次线上事故的复盘,引出了福报厂的Arthas,一个建立在Java动态字节码技术之上的Java诊断工具;关于Arthas的使用方式就不赘述了,查看官方文档可以很快上手,玩法也特别多;上一篇中也仅仅只介绍了一种使用场景,即”debug线上JVM内部class信息、在线watch方法执行并查看方法输入输出、在线反编译class、重新编辑Java后直接热部署“的组合拳(手动狗头)…上手一门技术最基本要做到 what-how-why,在知道了Arthas是什么(what),以及如何使用(how
2021-06-07 06:30:47
662
原创 从利用Arthas排查线上Fastjson问题到Java动态字节码技术(上)
没被Fastjson搞过的程序员不是合格的程序员 ---- 手动狗头开个玩笑,福报厂的同学们不要喷,Fastjson是非常优秀的工具!复盘先简短复盘下之前遇到的一个线上问题:随着业务发展项目A日渐臃肿,已经成为人人都头疼的big ball of mud 大泥球,遂决定对其进行重构,细节包括服务拆分与部分逻辑重构。虽然我不是这块业务的技术owner,但这类重构任务自然还是我来负责,同时在业务需求排队与原owner看戏心态的情况下,留给我从头熟悉与重构的时间并不多… 重构过程就不在这赘述了,虽然发现和.
2021-05-22 09:59:59
793
1
原创 Kubernetes弃用Docker的由来和始末
2020年12月初,Kubernetes在发布v1.20的时候重磅宣称将逐渐弃用Docker,一石激起千层浪,瞬间引爆容器圈;但没想到已经过去两个月时间了,还有文章用UC体误导吃瓜群众,“还在学Docker?”、“Docker已死!”; 额… 累了,毁灭吧,赶紧的…所以在此梳理下整件事情的来龙去脉,若有不正确的地方还请指正,非常感谢!快速回顾最初Docker是建立在Linux的LXC容器技术之上,但LXC最早也是由Google贡献给Linux的,所以一定程度上说没有Google就没有Docker。
2021-02-01 08:50:57
6532
原创 DDD领域驱动设计
经常可以看到大家在内网社区讨论DDD,作为一名~~79岁的~~老同志也想分享下自己的心得体会 ????本篇不会涉及DDD基础概念的介绍,很多文章已经讲解的非常详细,就不赘述了;但想强调一点的是DDD的概念最早由巨佬 Eric Evans 在2003提出,里面的很多概念由于年代久远和翻译的问题经常困扰大家,其实不必纠结于概念,理解思想就足够了。`DDD`和`OOP`一样都是大浪淘沙留下来的金子 上面的图片某种程度上可以从侧面反应出近10年后端架构的发展,特意拿微服务和Serverless这两个近几年非
2020-12-03 08:37:54
777
2
原创 Kubernetes autoscaling 自动扩缩容
很多时候需要对线上应用进行扩容和缩容,扩容以提高应用处理能力,缩容以节约成本;而以往的系统对在线扩缩容支持的并不是很好,或多或少都需要开发或运维人员介入;Kubernetes提供的HPA - Horizontal Pod Autoscaler - Pod水平扩缩容,则解决了这个问题,只需要定义扩缩容的阈值,之后就交给Kubernetes处理即可。基本概念HPA默认 15s 执行一次 (当然也可以修改 --horizontal-pod-autoscaler-sync-period XXs),每次执行会查
2020-09-11 09:21:35
1223
1
原创 使用Cobra创建功能强大的命令行CLI
我敢肯定所有人都在使用git,也有很大一部分在使用kuberntes,但是不确定你是否会对每天都在操作使用的这俩命令行CLI感到好奇? 是否想过对它们的实现一探究竟?毕竟,好奇心是驱使人类进步的一大动力哈哈,直接进入今天的主题;Cobra,一个可以用来创建强大功能命令行CLI的工具,git / kubectl 都是它的代表作。就不翻译 文档 了,先说下基本使用方式,然后直接上例子。Golang 配置和引用 Cobrago get -u github.com/spf13/cobra/cobra
2020-07-03 22:49:38
888
原创 使用Fabric8 kubernetes-client java client 操作kuberntes 自定义资源CR
kubernetes-client (fabric8) to interact with kubernetes custom resourceskubernetes中的一切东西都叫做 resource,k8s 默认的提供了很多 resource,比如 pod/deployment… 而 custom resource 允许用户基于已有resource,创建新resource来扩展k8s;在这里并不打算深入介绍CR/CRD;而着重介绍下如何通过 fabric8·kubernetes-client 来操作C
2020-06-21 16:02:58
5283
原创 OpenFaaS 101 - 4:Design & Architecture
掌握了hello world之后,就来看看OpenFaaS架构Overview如上图,OpenFaaS在架构上,属于承上启下的第二层,需要部署在k8s上,同时需要container registry存储image;也需要NATS负责异步处理,Prometheus负责收集metrics,同时负责扩容workflow上看:OpenFaaS Gateway负责处理所有request (sv...
2020-05-04 18:50:35
856
原创 OpenFaaS 101 - 3:Hello World
第一个列子,当然是 Hello World 了… 下面使用 Python, Go, Java 分别实现…首先准备好目录:└── helloworld ├── go ├── java └── pythonPython使用CLI创建 function faas-cli new --lang python hello-world, 会自动生成以下文件└── hello...
2020-05-04 18:48:05
902
1
原创 OpenFaaS 101 - 2 : 安装 OpenFaaS 以及第一个 Function
首先 OpenFaaS 可以部署在 k8s, OpenShift, Docker Swarm 上,其中官方推荐使用 k8sInstall faas-cli如果是Mac的话,可以直接 brew install faas-cliCreate two namespaces openfaas & openfaas-fnkubectl apply -f https://raw.githubu...
2020-05-04 18:45:14
1687
原创 OpenFaaS 101 - 1 : Serverless & Faas
OpenFaaS 101 - 1 : Serverless & Faas在开始 OpenFaaS 之前,需要先了解两个概念: Serverless Computing, FaaS近几年 MicroService 微服务,Cloud Computing云计算 ,Kubernetes 等技术 已经成熟的落地,甚至变着花的玩儿的时候;很多人开始探索下一代架构 Serverless Compu...
2020-05-04 18:42:10
746
1
原创 kubernetes DNS
最近公司的k8s集群中不时的会出现域名解析的问题,但排查问题的过程却费了些时间,为了以后的经验积累,在这里在梳理下用到的基本知识.DNS: /etc/resolv.conf有四个重要的元素:nameserver //定义DNS服务器的IP地址,可以有多个,分行即可domain //定义本地域名search //定义域名的搜索列表,可以是多个,空格分隔即可so...
2019-11-02 06:29:09
622
1
原创 2019 阿里巴巴云栖大会 - Alibaba Apsara
9月底有幸参加了为期三天的阿里巴巴云栖大会, 感受了虽然已入秋但依旧炎热的杭州, 也体验了阿里巴巴作为国内领先科技公司带动的行业发展.但是也不得不承认, 较往年更偏向开发者 极客, 现在的云栖大会越来越商业化, 充斥着友商合作 流量…所以在享受着新技术的同时, 也头疼着行业乱像. 大会上发布各式各样的阿里新产品, 宣布这阿里进军产业A产业B, 与X合作与Y合作的同时, 收着门票, 吸着引流量…...
2019-10-06 10:33:17
2199
原创 SSO: Basic-Auth & OAuth2 & SAML & OpeanID
SSO = Single Sign On为什么要有SSO?我们可以从有SSO和没有SSO比较开始:如果没有SSO的话,那所有的APP都需要维护一套完整的认证+授权(authentication and authorization)App team 不开心,因为他们不得不维护所有用户信息,还要维护模块去做验证和授权User 不开心,因为用户得不得在每个App内管理一对儿用户名和密码,还总...
2019-09-22 05:59:09
971
原创 Docker <none> <none> - dangling
如果查看docker的image或者container的话,肯定会看到很多 <none>:<none> 的东西,那么这都是是些什么? 可以删除了吗?答案是: 分情况讨论如果使用的是带-a参数的命令,如docker container ls -a或者docker image ls -a那么这里看到的所有<none>:<none>的东西,很大几率上...
2019-09-13 07:20:08
6973
原创 敏捷Agile: Epic vs UserStory vs Task
Epic-Story-TaskEpicEpic是User Story逻辑上的集合, 一个Epic可以被break down成多个小的User Story; 一个Epic可能需要多个Sprint才能完成.User Story vs. Task在JIRA中,User Story与Task可以算作同一级别,其中User Story 可以代表一个user feature, 一个有user va...
2019-09-09 21:07:40
8294
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人