OpenCompass 大模型评测框架 一个模型被训练好后,我们需要去验证模型的能力,我们就需要工具去评测一个模型的好坏,以及哪方面的能力更好,哪方面的能力差一下,这样能够更好促进模型不断地优化,训练出能力更强地模型。
XTuner 微调个人小助手认知 本文主要讲解如何利用 XTuner 完成个人小助手的微调!为了能够让大家更加快速的上手并看到微调前后对比的效果,那我这里选用的就是上一期的课后作业:用QLoRA的方式来微调一个自己的小助手!我们可以通过下面两张图片来清楚的看到两者的对比。
LMDeploy 推理部署工具 LMDeploy由MMDeploy 和 MMRazor 团队联合开发,时涵盖了LLM任务的全套轻量化,部署和服务解决方案。核心功能包括高效推理,可靠量化,便捷服务和有状态推理。
InternLM 技术报告解读(一)- 训练框架,模型架构,数据处理 大型语言模型的发展包括预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)等主要阶段。过去关于LLM的技术报告很少关注预训练数据的处理。InternLM2详细描述了如何为预训练 准备文本、代码和长文本数据。如何有效地延长LLM的上下文长度目前是研究的热点,因为许多下游应用,如检索增强生成(RAG)和代理模型 ,依赖于长上下文。本次技术报告就详细的阐述关于数据处理,预训练以及微调模型的技术细节
STM 32 HAL库 内部FLash读写调试的问题 分析:首先确认,先写入其他参数,再写入版本号,读取Flash,版本号完整无误,写入版本号后,再写入其他参数,版本呢号最后几位丢失;所以,怀疑是写其他参数的时候有问题。我的参数写入流程是:先读取Flash中所有参数值到内存,再修改对应位置参数值,再全部写入随后,我将写操作屏蔽,仅在确认了版本号无误后,读取,发现,版本号最后几位丢失,检查读取代码,发现读取时的长度不对,没有将版本号最后几位读取到内存中,导致写入的时候,不是Flash中原来的值。解决:修改读取所有参数时的长度。
STM 32 HAL库 UART 调试的问题 分析: Debug发现,最终没有进入串口中断函数。于是,检查Stm32CubeMX 的工程配置两个串口的全局中断没有使能。解决:勾选上图中红框部分,查看生成的stm32g0xx_it.h ,已经有对应中断函数的定义了还要在stm32g0xx_it.c 中屏蔽生成的 中断函数实现,并在自己的代码里实现中断函数。
STM 32 SPI 调试的问题 最终发现,我使用正点原子的 sysytick 延时函数delay_us, 与这里用于计算超时的sysytick有冲突如,具体冲突原因,未知。最后去掉delay_us函数,延时改为使用timer 去做,发现HAL_SPI_Receive能够正常返回。刚开始HAL_SPI_Receive,执行到这句时,一直卡在这里不在往下执行。但是函数能返回,却一直报超时,于是使用逻辑分析仪采集SPI的数据,发现CLK仅有一个脉冲。检查SPI代码,发现SPI使用的是2分频,怀疑是否是波特率过快,导致CLK有问题。
AIGC - 环境搭建 1. 超微7048主板,最多可搭载4块GPU2. 2个Intel的 Xen至强 14核 CPU3. 目前安装了一块Nvidia 的P40 GPU,后续根据需要还最多可以扩展3块GPU4. 4T机械 + 2T Nvme固态,5. 4条64G DDR4内存条,共 196G内存。
IAR - STM32工程,使用代码编译优化带来的风险 由于STM32Flash资源有限,为减少程序大小,使用了Hig等级的编码优化,生成的程序确实减少了4K左右。经过一系列排查,最终发现,是代码编译优化带来的问题,将编译优化等级降低为medium,发现结果正常了。但是在后续的调试时,却发现之前运行的好好的DS1B20温度采集,一直采集不到值,结果一直为0。具体是那一条优化选项出现了问题,还在排查中。原来是能够采集到实时温度数据的。
AIGC - Qwen大模型:Qwen-7B模型推理部署 作为AIGC方面的小白来说,我抱着非常天真的想法,想让它在我的工作笔记本上用i5的CPU去跑,至于为什么这么想,当然是因为我没有GPU,身边也没有其他的带显卡电脑恰好,在腾讯云看到了GN7的显示优惠活动,60块钱15天,Nvidia T4的AI卡,直接斥巨资购买了15天;不过这段时间准备搭一台自己用的服务器,初步计划是可以插4块GPU,内存上到200G,还是用DeepSpeed做下全量训练啥的。