2023年度总结——新观点,新方法,新认知,新朋友

写在前面

       又到了跨年的时刻,由于笔者一如既往的“记性差”,所以习惯性会做一个全面的总结,用不太华丽的辞藻,让自己的一年时光不至于虚度。而2023年,对于我,也是一个更具“重大意义”的一年,那就更值得完美总结一下了,因为很多决定、认知和行动对于自己都是空前的,但一定不是绝后的。

本文篇幅略长,预估阅读时长12分钟左右,文章开始前先啰嗦一下,如果阅读中有些措辞让您感到开心,那就请“公主/王子”点个红心,哈哈~~言归正传,正式开启自己的心路历程!

剧透下,后面更精彩哦~~一定要耐心看完吼

新观点

  • 没有什么是比家人更珍贵的(从换工作开启新的篇章)

        提前说明吼~不是刻意煽情,讲述事实而已。

时间轴瞬移到了2022年12月5日,因为这是“小晴天”的生日(小晴天,一位堪比自己生命的小不点)。而这一天,我在成都出差,结束一天的工作后,兴高采烈的去商场挑生日礼物(虽然可以网购,但还是享受实体店精心挑选的过程哈哈~~),工作的累早已经荡然无存。

        晚上回到酒店,两条微信扰乱了我的思绪

打针没哭

而此刻,我只能躺在酒店,无能为力,而仔细回想,这些年的一幕幕类似的场景,不止这一次;由于工作原因,需要频繁出差,这几年,因为疫情和项目的紧急原因,国庆、中秋假期都是不太容易回家的,即使春节假期,也是7*24H,值守保障通信。此处请容许我浅浅的致敬下各行各业的服务者……

       此时,一个既出乎意料又在情理之中的突然决定就油然而生:既然不能改变工作,那就改变自己呗~我就把这个想法告诉了家人,没想到家人举双手赞成,“现在就辞职回来吧!”

我承认我肤浅了,更显得是那么的没有格局,因为出差虽然辛苦,但确实收入会好一点,原以为家人会权衡这些,但是没想到她根本就不在乎这些!更是说了让我裸辞休息一段时间的话~

感谢家人们!我竟然忽视了最重要的~

  • 机会眷顾有准备的人

       这是一句老生常谈的话,但是对于2023年的自己,更是颇有体会,这是自己大学毕业的第一份工作,做出辞职这个决定以后,因为网上弥漫着就业不景气的氛围,属实有点担心的……就开始调研目前的市场情况,通过自己的人脉,多方了解,最终瞄准了AI+IAAS层这个领域。突然发现,接近8年的通讯专家级技术经理,新进一个领域真的就是一个新人。保持空杯心态,每天阅读一篇关于AI的文章,每天刷一道算法题;同时就是做简历、投递,每天晚上也在投递,此处剧透个小细节,目前的工作就是凌晨02:17投的简历,BOSS竟然回了消息,并出了3道题让我30分钟内做完,我做完发给了BOSS……

        而面对这样的就业环境,通过自己的扎实准备,1周内拿到了2个offer,春节后又拿到了2个offer,最终来到了自己最满意一家互联网头部企业。

  • 没有做不到的,只有不想做

导师指点迷津

拿到offer以后,leader给我发了一些岗位相关的技术栈,其实回想一下,当时对有些名词都不懂,有些工具,甚至之前自己都没用过,因为deadline是3月7日,所以还没离开上家公司,就利用晚上下班时间和周末时间,用家里电脑搭建虚拟机、搭建环境和OS,完成了部分工具的实践,以便自己能更快的适应新的工作环境;事实也是,入职以后,起码没有那么慌了,最终也是顺利转正,投入正常工作和项目。

新方法

  • GPU的测评方法探索

       2023年,进入一个新的领域研究——GPU。顾名思义,GPU浅显的解释是图形处理器单元(Graphics Processing Unit),而对于我们专业测评团队来说,就不能以这种名词去解释,似懂非懂也显得极为外行。

        GPU的测评,主要分为两个方面:benchmark和LLM模型性能表现,这些都是服务器传统IAAS所不能涉及的,这里也将详细做以总结,希望各位官人在阅读的时候能有所收获~

        首先,浅浅总结下benmark,这个相对比较简单,GPU从硬件层面来讲,也不是铁板一块,我们可以庖丁解牛,简单分析就是GPU的硬件长稳测评、带宽和时延测评、算力测评等等各个方面去分解测评,其中涉及的相关工具包括peak TOPSbandwidthTest以及cuda samples自带的一些测评工具,这了和CPU类似,不做过多的描述;

其次,就再重点介绍下GPU在LLM模型测评上的表现。

       LLM,即大语言模型,在目前火爆的AI时代,尤其是生成式AI的遍地开花,而相比于传统的中央处理器(CPU),GPU拥有更多的核心和更高的内存带宽,能够同时处理大规模的数据并执行复杂的计算任务。这使得GPU成为训练和推断深度学习模型时的理想选择,因为深度学习算法通常涉及大量的矩阵运算和并行计算,而GPU能够在这方面发挥出色的性能。因此,GPU因其在处理大规模数据和复杂计算任务时的优越性能而成为AI算力的重要基石。

        LLM模型的测评,有分为模型训练和模型推理,这就首先需要掌握具体的平台、框架和模型相关的技术栈,大模型如LlaMa、Megatron-LM、GPT-neox、baichuan-2、chatGLM-2

也都需要掌握,这些开源相关的知识很多,就不展开讲了,此处重点描述下个人的理解及高人的指点(先卖个关子)

       需要对平台、驱动、固件版本、框架掌握,才能正常做模型训练和推理;

对模型的配置、每个参数做出分析,对应到具体测试用例;

log的分析至关重要:对异常日志及警告分析、对每一条测试结果,结合log做出分段耗时的切分和分析。

……上面这些才算一个入门级GPU性能测试。

那就借用大师级指导,看看终极目标,话不多说,直接上图:

神来之笔的知识版图
神来之笔的框架图

懵了吧?说实话,我也懵……只能在慢慢大海中继续遨游……

  • 与协作团队的交流和问题探讨方法

      俗话说得好,“打蛇打七寸”,只有击中对方的痛点,才能维系最好的协同关系,这个例子,可能不太恰当,因为无论何时,我们都是一致的目标,始终坚持在产品和客户的立场,把控好产品质量,才会让我们走的更远,更稳,更有价值。

       还是举例吧,对于GPU来说,普通的机型测评,实际上并不能和他们形成良好的合作关系,因为这实际上是“挑刺”,找到人家的缺陷,让他们修复;那么就要找到共同的发力点,一个偶然的交流机会,让我知道了他们目前的一大困扰——那就是“现网投诉压降”。

       他说:“客户好烦,大半夜提问题投诉,我就得爬起来支撑”;

他说:“周末出去玩,客户一个电话,就得回去处理问题”;

他还说:“部门正在团建,背着电脑,就在酒店旅游了”…………

问题的本质在哪里?客户不讲道理吗?

NO!你的问题太多,要不然客户也懒得骚扰你的!你的声音并不好听哈哈……(意思是客户并不想听你解答问题,客户希望没有问题)

我说:“研发老哥,投诉那么多,你能否把那些问题整理下,我深度挖掘下,设计出相对应的用例,最后再共享给您评审,你看可以吗?”

最初我是抱着试试看的态度,因为整理这些投诉形成文档,很费时间的……

但是,出乎我意料的是,研发同事,第二天一大早他就给我发了一份文档,而且很客气的让我看看,我还挺诧异的。

        这个事情的最终结果就是:我针对现网的投诉问题,根据不同维度,挖掘了相对应的测试方案和用例,并得到了研发的认可和复用,并且延伸供应链同事把我这一套方案拿过去,直接提供给了服务器厂家,作为服务器验收标准项;除此之外,研发每周的质量晨会也邀请我参加,获得了很多贴近一线客户的有价值的信息,如果不是参会,我觉得这些信息我永远都不会获取到……

小小总结:

只有沉淀到一定的东西,并且主动和别人合作,提供给他帮助,让他“依赖于你”,才会有一定的资源,而且别人也会很愿意分享一些知识和信息,提供帮助给自己,互利共赢

信息的闭塞真的会局限自己的认知,也会耽误任务的进度。

  • 外界资源的有效利用

和之前工作不同,在GPU测评领域,很多工作都是带有探索属性的,内部不可避免会遇到知识天花板,例如今年的GPU投诉压降、Intel 自研torch框架探索、llama.cpp推理框架探索、昇腾910B机型预研等等,都是集合了外界资源,包括Intel、华为、NV等各领域专家解决问题。

当然,一个人的时间和精力都是有限的,不可能同时做这么多事情,必须要有优先级的制定,同时,我们正好有竞品测试学生,提供任务书给他们来执行效率会大大提升。

新认知

  • 不要轻易相信别人的答复,要有事实和依据

之前形成的惯性思维,有问题去找研发确认就闭环了,但是现在的认知有所改变,性能测评是不能出现“xxx说的”这样的措辞,应该要用具体的证据和事实来佐证。

比如,最近的一次测试,2次被研发同事“忽悠”,其实主要是他也不懂,猜的……在CPU的推理测试中,对某机型进行对比测试,而硬件厂商针对这个机型推荐两种装箱策略。最初,3个不同规格子机,研发给了6台机器,两种装箱策略各3台,我们测评结果出来评审的时候数据异常,研发确认后,才说6台机器都是旧装箱策略,忘了修改……

其实,正常来讲,此时就应该想到一些方案来应对,但是忽视了,导致后面研发又说128C的子机规格不存在新的装箱策略,此时才想到,应该刨根问底,掌握新旧装箱策略的根本区别,在测试前先验证。

因此,在得知新的装箱策略是32C/48C/64C规格增加了一倍CCD,可以促使内存带宽翻倍来提高性能,所以加入了内存带宽前置测试,确保每一次测试数据均是有效的。

但是,此时已经浪费了人力和时间。

  • 量变,才有可能引起质变

哲理好多历史名人都说过,最早出自中国古代哲学家老子的《道德经》,但是我想说的是,量变是质变的必要不充分条件,也就是说,量变不一定会质变,但如果发生了质变,一定是需要铁棒磨成针的毅力和积累的(仅个人观点哦)

在这一年内,起初,对GPU认识的很浅很浅,但是就会去总结,去记录(这里也有可能是因为我记性差,习惯了写下来避免忘掉的原因)。但是自己记录的东西还是蛮多的:

电子文档:个人IWiki空间沉淀文章41篇,GPU专项总结28篇,AAR复盘总结2篇,其中组内分享13篇,中心内分享5次

笔记本写的:两本已经写完,包括随手翻到的重要技术栈、调研到的信息、会议纪要等等等信息。

到目前为止,通过积累,也算是对于GPU入门了吧……

当然,这个方法可能只适用于记性差、各种事情穿插随时会忘掉的场景,重点想表达的是,只有达到了一定的积累才会有更深层次的升华。

  • 变化,是永恒不变的事实

变化是永恒存在且不可避免的,它是生活、工作中不可改变的事实。

这里自己深刻的体会来源于一个项目、一个灵魂拷问!

带着其他同学做一个探索性项目,突然有一周,一位同学要去面对焦头烂额的考试,暂时不能投入项目,灵魂拷问来了

“你的deadline是什么?人员变化你不做相应的项目调整吗?你不用制定新的里程碑吗?”

恍然大悟!任何时候、任何事情都可能变化,变化不可怕,可怕的是看到变化而纹丝不动,而要做出相应的调整适用这种变化!

  • 不要假装懂AI,要真正提效和创新

在今年的工作当中,由于有了GPU的加持,对AI也需要更加深入的理解和掌握,那么就需要正真的去使用AI。

回顾一下,在3月份使用AI的小白阶段,貌似很新奇也很高大上,但实际上自己心里比谁都清楚,就拿AI当作一个简易的万能搜索引擎而已,各种手段、各种途径、各种AI群里面收集、归拢一些AI小工具,然后假装很懂、很秀的使用一下就扔掉了……

真正帮助了自己?真正有了自己的小秘书?然也?非也!

假装了一下下而已!

而现在,通过更深入的理解和挖掘,发现,AI是真的可以提效的,只是自己没发现而已。

还是用事实说话!

AI的深入也受益于部门对AI的深入,成立了AI兴趣小组,会了解更多的前言知识栈,记得最开始和某位AI大佬交流,满口的英文术语,更可怕的是,这些英文术语他还做了首字母缩写简读呀!可怕,完全懵了啊,为了能顺利的交流这些前言术语,不被“江湖人”耻笑,那就要努力去懂!

有了想法就要行动,现在这个信息爆炸的时代,最不缺的就是资料,当然同时也会在论坛、B站寻求“神秘人”的帮助,实践后,发现确实提效了。

首先,部门的AI小组开发了“性能大师”机器人,这让平时自己总结的iwiki文档都成为训练的语料库,不仅为自己的后续工作提效,同时也方便了他人。

其次,自己平时对Monica的使用中,通过Google搜索,智能化总结关键问题并可直接搜索答案(支持多种语言);

再者,typeset.io小工具可以实现PDF纯英文类文档的导入阅读:实现文档翻译、总结和智能提问,在文档阅读前可带着问题阅读,效率更高,也大大帮助“英文荒”的自己快速阅读原厂技术文档;

更为神奇的是,对于我这种“代码荒”的人,他可以帮助写代码哟!

新朋友

今年,随着新工作的投入,确实结交了很多新朋友,有些甚至可以称得上挚友和导师!这里隆重介绍一位新朋友!吼吼吼~闪亮登场!

  • 小晴天

第一次骑马

第一次骑马

带他去玩游乐场

萌化了的笑
打怪兽

第一次滑雪

勇敢的小晴天
勇敢的小晴天
推着玩

第一次开碰碰车

使劲撞

第一次学校陪他做手工

太难了

他说长大要当宇航员

宇航员主题的生日蛋糕

摘录一些耳熟能详的奶声奶气的天籁之音

”爸爸,你还不睡!别玩手机了,妈妈你把他手机没收了“

”爸爸你还不吃饭,都凉了,咱俩比赛,我要数数了1~2~3“

”爸爸,你不听话我要揍你了哦“

”爸爸都几点了,你还不回来,我要等你一起睡觉“

别说,这朋友还挺暖心的嘞!自从陪伴的时间多了,亲子也多了,确实也成了好朋友~

结语

今年不知不觉写的有点多了,有点没刹住的感觉……哈哈,性情了一把!

惯例,差不多了就得鸣谢了,感谢给我机会的大佬,感谢手把手指导我、目标和方向纠偏的大佬!感谢这一年来对自己耐心指导和帮忙的家人、同事和朋友,感谢未曾谋面的神秘陌生人的一些帮助!

2023年谢幕,期待2024年是一个美好的开端,也能有更好的收获!起码对得起努力奋斗的自己!也祝自己和所有的读者2024好运多多、赚钱多多、成长多多!

今年的小小成果:浅浅Mark下

长沙团建,很荣幸作为组织者,虽然组织的不是很优秀,但大家没咋吐槽,必须mark下:

部门大家庭

部门大家庭
西安小伙伴

"团建奖状一个"

团建小小奖励

部门”小红花一枚"

多多总结

"经典bug大赛奖杯一个“(🏆还未发放)

继续练口才

”获得两枚S绩效激励“——信息安全,截个彩报~

付出就会有回报

和同事共同努力的工作,写了篇KM文章,竟然上热搜了~

几个深夜的改进
  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值