自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

只为分享

管他真理无穷,进一步有一步的欢喜

  • 博客(98)
  • 资源 (8)
  • 收藏
  • 关注

原创 字节跳动万卡集群网络分析

从公开的信息披露,截至2023年9月,字节跳动已经建立超过一万张的英伟达Ampere架构GPU集群,目前正在建设Hopper架构的集群。英伟达Ampere架构主要包括A100和A800型号的芯片,Hopper架构相较前者则更新,主要包括H100和H800芯片字节和北大公布的论文,关于网络拓扑的描述主要是其中一章节:根据这段描述试图我们试图重现整个集群的拓扑结构单pod GPU数量为4096,多pod 通过core switch 进行全互联,可以支撑超大规模集群的scale out。

2024-06-19 22:12:22 870

原创 智算中心带宽漫谈 -- 开篇

带宽对高性能计算是一个永恒的话题,本质上,带宽即数据交换的速率,单位时间的传输数据越多,带宽就越高,但对高性能计算来说,对高带宽的渴求永无止境,好比宏观现实世界中的车道,90年代设计的国道,对于低速的自行车和少量高速的货车来说,足以应付,但那个时代永远不会预料到,在21世纪的今天,高速的私家车会成为车道上的主要流量,因此,当时的设计已经遇到了车流量交换速率的瓶颈,在此基础上进行拓宽?面积受限,国道周围已经高楼大厦,架构已经成型,拓展空间已然被压缩。

2024-05-25 21:33:04 352

原创 高性能推理框架漫谈

目前应用比较多的是VLLM 和DeepSpeed, 关于二者的比较:

2024-05-24 10:15:27 209

原创 GPT4o的几点想法

多模态能力: 多模态的处理能力,现在的Mixtral和各种MOE在处理多模态问题还是遇到瓶颈,实现demo状态的丝滑切换不光是要在模型层面下功夫,工程化也需要有极高的造诣,这一点不得不佩服,就演示的几个场景来看,从语音到提示打开视频识别,chatgpt切换极其自然和稳定,甚至有增加了过渡的语气和主持人开玩笑,就这个能力来看,不只是MOE expert切换能够解决的了;端到端的处理能力:这个能力的落地进一步验证了transformer的泛化能力,everything is token 的时代即将到来。

2024-05-16 22:25:01 433

原创 大语言模型的后处理

常规意义上的大模型处理流程后处理的输入是logits,其实准确说是hidden states,经过embedding table 映射后得到了最终的logits。

2024-05-10 10:18:03 418

原创 真正的AI 设备:M4 加持iPad Pro

这个配置和性价比,以及内存带宽,同时统一大内存对编程模型天然友好,对开发者来说也是一大福音, 本地跑十亿级大模型已经不是问题, iPad 设备上大模型的落地,也会进一步激发相关应用的繁荣。北京时间 5/7 晚上,Apple正式发布了其M4 芯片,其对本地化的神经网络加速是一次越级的提升,第一次落地选在iPad上进行部署,从行业的角度是一个明智的选择,相比Mac Pro, iPad 的创作属性更加纯正,也符合AIGC 目前众多落地场景中的娱乐元素。期待其他更丰富的AI 应用本地化,后续持续追踪。

2024-05-08 10:07:34 298

原创 特斯拉FSD落地分析

28/4 号的突然访华,在大多数人看来其实已经早已是计划之中,从摆在台面上的消息来看,主要目的是为了在大陆推广FSD的落地,也为8月份FSD 的正式版本做预热,和中国上海的第一次联姻造就了特斯拉model3 产能的极速提升,加速了model3 的落地,因此,FSD 是否能让特斯拉和中国再续前缘,关乎着Tesla 的股价是否能再一次起飞。从这个角度看,Tesla 是这个市场上独一无二的存在,拥有全栈FSD解决方案,同时拥有持续增长的真实道路数据,对于客户和投资者,需要时间静待花开,迎来突破曲线的拐点。

2024-05-04 22:02:47 1009

原创 聊聊服务器散热方案的演进

最近在关注美股,围观行业大佬分析NV 供应链体系,注意到一家公司VRT, 这家公司是NV 的独家液冷方案提供商。最近VRT 的股价青云直上,一家做液冷方案的公司护城河到底有多深,散热方案在整个行业中处于什么位置,这些问题是我想了解的。NV 的技术路线图从A100/H100 到最新GB200 的体系,TDP 也从300~700W 跃升到1000W 的门槛,以往的风冷方案在散热效率上显得非常力不从心。

2024-04-27 23:11:32 1018

原创 Nvidia DGX 系统分析和探讨

下图为1U 高度的NVL72 单节点实物形态,其中每个节点包含两组GB200s 系统,整合水冷散热。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/987b768da14344eab5fc9201aecc41ed.png实物NVL72 机柜![实物NVL72 机柜](https://img-blog.csdnimg.cn/direct/5398d8a1102a4a35acec66e85dc9e4d8.pngRank 之间的互联通过。

2024-04-15 14:25:08 411

原创 github 多个账号共享ssh key 的设置方法

首先确认自己系统内有没有 ssh key。bash复制代码cd ~/.ssh若有,确认使用当前 key 或者生成新 key,若没有,生成新 key。由于我需要登录两个帐号,所以在已经存在的 key 的基础上,再生成一个 key。生成 ssh key-t 是使用的算法,一般都选择 rsa -C 为备注,一般以邮箱作为备注,提示保存文件时以 id_rsa_work 保存,用于区分第一个密钥id_rsa。至此,我的 ~/.ssh 文件夹内共有4个文件。

2024-04-03 22:54:17 1095

原创 一文搞懂大模型的前处理

基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。分词的处理,在英文中翻译成tokenizer,它拆分一段文本为独立的单元,成为token,其中的token可以是一个词语(word),也可以是一个句子(sentence),还可以是一个字符(character)。理解了肉身文字处理的原理,我们采用类似的方式让大语言模型能够理解这段中文,我们首先要按照类似的方式对这段文字进行预处理。

2024-01-24 09:29:45 889

原创 聊聊原子弹之父:奥本海默

最近诺兰的电影奥本海默即将热映,其改编自Kai Bird和 Martin J. Sherwin的 2005 年Pulitzer Prize 获奖小说:“American Prometheus: The Triumph and Tragedy of J. Robert Oppenheimer”。这本小说作者研究奥本海默25年,才得以成形,可见奥神本人身上的故事曲折和传奇。

2023-07-30 22:59:26 240

原创 英伟达数据中心产品看板

通过chatgpt 生成了tesla 主要产品线产品的参数:

2023-07-23 20:51:08 225 1

原创 计算机科学史

经典电磁学Benjamin Franklin(1706~1790)The discovery of Electron(1897)Bohr model of HydrMatter waves are problebility waveHistory of electronic devicethe invertor of Mosfetthe first IC

2022-01-16 12:04:18 470

原创 人工智能的历史(History of artificial intelligence): AI 冬天

第一个AI 冬天在所有人对AI 充满期待时,1970 年AI 自身遇到了它难以逾越的瓶颈:有限的计算资源自然语言的处理在当时由于计算机内存的限制,只能处理20个单词问题的复杂度难以驾驭常识的推理几乎不可能完成莫拉维茨悖论(Moravec’s paradox)分帧和量化问题1970s 年代,资助AI 研究的主要机构第二个AI 冬天......

2021-01-31 19:34:42 723

原创 mac item2+oh my zsh配置

item2oh my zshsh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"curl: (7) Failed to connect to raw.github.com port 443: Connection refusedgit clone git://github.com/robbyrussell/oh-my-zsh.git ~/.oh-my-zshauto

2020-07-25 23:43:04 166

原创 Leetcode summary: Binary search

34. Find First and Last Position of Element in Sorted Arrayclass Solution(object): def searchRange(self, nums, target): """ :type nums: List[int] :type target: int ...

2020-07-07 11:26:58 121

原创 装载,链接和库

相关command:1)readelf -s *.o :产看.o文件符号表2)ar -t libc.a :查看库中所包含的目标文件3) ar -x libc.a : 解压库4) gcc -static --verbose -fnobuiltin *.c : -verbose 将编译连接过程所有的过程打印出来,5) ar -t xx.a 查看库文件信息2014/11/27 1...

2020-07-06 15:59:40 294

原创 Low power AIoT by Jamie Campbell

mac operloop handlingdata handlingsynopsys arc em9d- risc core with dsp isa extensionxy memory and address generationHimaxembarc.orghimax.com/tw/products/

2020-07-06 15:58:09 294

原创 处理器流水线的理解

asdfasdf

2020-07-06 15:56:58 338

原创 Maching Learning

Training ModelLinearGradient Descent(GD)batch GDMini-batch GDStochastic GDPolynomial Regression

2020-07-06 15:55:20 157

原创 语音交互的用户体验

突发奇想,抛出问题今天突然想到这个问题。到底怎么样的体验才是好的语音交互体验?这个问题对于语音技术开发人员可能想的很少,尤其是当前语音技术处于一个时代的风口浪尖的年代,作为从业者,每天面对者五花八门的技术需求,我们缺乏时间思考什么才是好的,合适的语音交互体验,我们疲于应对客户需求,寄希望于客户需要的就是终端用户需要的, 被动的手忙脚乱,但是,事实上,语音交互设计到的技术链条很长,语音技术提...

2020-07-06 15:52:33 693

原创 计算机系统中的并行

指令级并行( instruction level parallelism (ILP))instruction pipelinesuperscalarout of orderspeculative executionbranch prediction

2020-04-12 22:55:22 452

原创 程序优化方法讨论

cache 是利用计算机系统中的局部性原理进行程序加速的一种系统设计方式。其中结合了空间局部性和时间局部性的处理。cache的组织方式Direct-mapped caches perform poorly relative to set associative caches when multiple memory references conflict with each other....

2020-04-12 22:53:43 483

原创 xtensa instruction set architeture(ISA)

Code densityThe Xtensa core ISA is implemented as 24-bit instructionsThis instruction width pro- vides a direct 25% reduction in code size compared with 32-bit ISAsXtensa ISA provides a Windowed ...

2020-03-05 23:06:35 662

原创 Tensorflow 训练实践

epochsThe next argument specifies how many times our entire training set will be run through the network during training. The more epochs, the more training will occur. You might think that the more ...

2020-02-12 20:42:19 291

原创 [LeetCode] 170.Two Sum III - Data structure design

Design and implement a TwoSum class. It should support the following operations:add and find.add - Add the number to an internal data structure.find - Find if there exists any pair of numbers which ...

2020-02-05 11:23:23 111

原创 [LeetCode] 159. Longest Substring with At Most Two Distinct Characters

Given a string s , find the length of the longest substring t that contains at most 2 distinct characters.Example 1:Input: “eceba”Output: 3Explanation: tis “ece” which its length is 3.Example 2:...

2020-02-04 17:19:32 130

原创 [LeetCode] 152. Binary Tree Upside Down 二叉树的上下颠倒

Given a binary tree where all the right nodes are either leaf nodes with a sibling (a left node that shares the same parent node) or empty, flip it upside down and turn it into a tree where the origin...

2020-02-04 16:23:33 246

原创 Edge machine learning computing, small intelligent device

From perter warden blogaccelerator problem:Intel’s Movidius Neural Compute StickA key observation is that, in a DNN, output size of each node decreases from front-end to back-end, while the cha...

2020-02-04 15:15:33 169

原创 [Algorithm] Design a link list with method: add, search and remove

struct Node{ valatile int val; struct Node* valatile next; struct mutex lock;}bool remove(struct Node*head, int val){ if (head==NULL) return false pre=head; cur=head.next; mutex_lock(pre....

2019-12-18 18:00:10 105

原创 [Algorithm]microsoft-a-string-into-sub-strings-with-additional-info-within-limited-length

https://leetcode.com/discuss/interview-question/439260/microsoft-phone-split-a-string-into-sub-strings-with-additional-info-within-limited-lengthExtend: append notation such as " (1 of 12)" and strin...

2019-12-17 19:00:30 108

原创 [Algorithm] 中文数字转换为阿拉伯数字

#coding=utf-8chs_arabic_map = {u'零':0, u'一':1, u'二':2, u'三':3, u'四':4, u'五':5, u'六':6, u'七':7, u'八':8, u'九':9, u'十':10, u'百':100, u'千':10 ** 3, u'万':10 ** 4, u'〇':0, u'壹':1, u...

2019-11-29 09:56:58 389 1

原创 linux driver中的面向对象的应用和相关设计模式

模板方法(Template Method)定义中间层,抽象出总线或者一类设备的接口观察者模式Linux内核中的通知链系统,callback函数桥接模式(handle/body)桥接模式的设计意图将抽象部分与它的实现部分分离,使它们都可以独立地变化。Linux内核中使用的最重要的桥接模式,在于万物皆文件的思想。即将用户态的抽象字符设备文件,与实际的字符设备驱动实现分离,从而使...

2019-11-20 22:45:04 289

原创 Leetcode sumary: Math problem

29. Divide Two Integersclass Solution(object): def divide(self, dividend, divisor): """ :type dividend: int :type divisor: int :rtype: int """ if (...

2019-11-18 11:50:15 130

原创 Leetcode sumary: minmax usage

486. Predict the Winner[375]. Guess Number Higherclass Solution(object): def getMoneyAmount(self, n): """ :type n: int :rtype: int """ dp=[[0 for i in r...

2019-11-18 11:49:44 109

原创 python 底层实现原理

//object base classtypedef struct _object { PyObject_HEAD} PyObject;//variable length object base classtypedef struct { PyObject_VAR_HEAD} PyVarObject;PyObject_VAR_HEAD中int ob_refcnt[objec...

2019-11-18 11:49:21 1880 1

原创 Leetcode summary: prime number problem

204. Count Primesclass Solution(object): def countPrimes(self, n): """ :type n: int :rtype: int """ if n<3: return 0 prime...

2019-11-18 11:48:34 115

原创 Leetcode summary: longest increase subsequece or substring or subarray

300. Longest Increasing SubsequenceGiven an unsorted array of integers, find the length of longest increasing subsequence.Example:Input: [10,9,2,5,3,7,101,18]Output: 4Explanation: The longest inc...

2019-11-18 11:44:45 95

原创 [算法] 二叉排序树查找中位数

比较tricky的解法,不用额外的内存首先考虑将二叉树转换成双向链表[LeetCode] 426. Convert Binary Search Tree to Sorted Doubly Linked List将二叉搜索树转为有序双向链表然后通过查找链表中间节点的方法找到中位数def doubleconvert(root): if not root: return None ...

2019-11-14 19:44:01 1025

linux kernel driver

linux kernel driver 框架介绍,进行linux driver 开发必备资料

2018-05-22

USB audio class specification

USB audio class 的详细spec,进行嵌入式USB 音频开发必备

2018-05-22

Linux常用命令全集

该文档包含了linux常用的命令合集,文件格式为CHM,是linux操作系统便捷的命令查阅文档。

2012-04-16

omnet++(tictoc 教程中文版)指南

这是个简短的教程,通过一个建模和仿真的实例来引导你入门 OMNET++,同时向你介绍一些广泛使用的 OMNET++特性。 本教程基于一个简单的 Tictoc 仿真样例,该样例保存在 OMNET++安装目录下的 sample/tictoc 子目录,所以你现在就可以试着让这个样例运行,但如果你跟着下面的步骤一步一步来的话,将会收获更多。

2012-03-18

IEEE802.15.4协议

TI公司出版IEEE802.15.4协议英文版

2012-02-28

dsp技术 (Ti)

dsp技术 大连海事大学课件 欢迎下载

2011-04-01

FPGA(1———10)

FPGA基于xinlinx公司芯片Verilog编程。

2011-01-18

FPGA ISE编程入门

详尽的介绍了关于FPGA ise vrilog 编程,注意其中是基于xilinx公司的芯片。

2011-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除