迂回.858-CSDN博客

原创 ssh连接本地虚拟机、设置ssh连接免密及实现tmux后台监控详细教程

1.更新并安装openssh-server2.启用ssh并设置开机自启3.获取虚拟机地址ip addr其中第二个里面的inet后接的就是ip地址。

2025-10-18 12:30:15 1099

原创虚拟机如何设置处理器和内核数量来尽可能实现最佳性能

指的是：虚拟的CPU数量。指的是：虚拟CPU的内核数。处理器内核总数=处理器数量✖每个处理器的内核数量此处虚拟机的处理器内核总数对应于真实物理机（或者叫宿主机）的CPU线程数（即逻辑处理器的数量）。所以在设置的时候，我们只要让处理器内核总数＜逻辑处理器的数量即可。

2025-10-16 12:33:44 1659

原创 Microsoft Edge安装扩展时抱错程序获取此加载项的清单文件时出现问题请重试/Download interrupted时候可参考解决方案

在文档最下方下面添加两行内容。用记事本打开hosts文件。找到hosts复制到桌面。

2025-10-15 17:07:51 795

原创在Linux中运行Make文件

由于自己没有安装虚拟机，为了简便直接在wls中运行的Linux环境，使用系统为Ubuntu 18.04.6。自己第一次在Linux中跑Make文件，故使用如下命令。然后运行即可在Linux中跑起来。出现如下界面说明编译好了。

2025-08-20 11:40:32 265

原创在hugging face下载模型遭到拒绝可参考解决方案

点完提交后可以在setting中Access Tokens中看审核的状态（前提自己得先新建一个Access Tokens），一般很快就通过了如果在提交表单按照我上面说的话。这边以Llama-3.1-8b为例，进入模型的Model card，点击下图中框选的按钮。然后一直往下滑，直到出现了下面界面。名字也最好是英文的。

2025-08-06 10:30:29 1226

原创出现了HTTPSConnectionPool(host=‘huggingface.co‘, port=443)错误的解决方法

在下载huggingface 模型的时候，经常会出现这个错误，HTTPSConnectionPool(host=‘huggingface.co’, port=443)降级requests和。

2025-08-06 10:15:35 693

原创 PyTorch实现自定义CUDA算子并调用的方法

函数传入的是C++版本的torch tensor，然后转换成C++指针数组，调用CUDA函数。，调用kernel。注意它是异步的，调用完之后控制权立刻返回给CPU。在python层面，也就是我们用户编写代码去调用上面生成的库了。就可以产生python可以调用的.so库。①先编写CUDA算子和对应的调用函数。自动编译上面的几个cpp和cu文件的。kernel函数，运行在GPU端的。

2025-08-02 11:19:27 659

原创关于生成式大语言模型（LLM）推理加速的硬件优化

算子（Operator / Op）是指模型中最基本的计算单元。

2025-07-31 18:20:13 1134

稀疏性通过减少非零元素的数量并跳过与零的乘加运算来提升计算和存储效率。由于标准基于 Transformer 的大型模型中存在注意力计算，稀疏化方法不仅包括权重稀疏和激活稀疏，还包括注意力稀疏。权重稀疏主要通过剪枝方法实现，包括全局剪枝、逐层剪枝和结构化剪枝，这些方法通过减少权重矩阵的规模并利用稀疏矩阵库进行优化。权重值越接近于零，说明它对输出的贡献越小。因此，可以优先剪掉这些“幅度最小”的权重。LLM-pruner采用基于梯度信息的结构化剪枝，有选择地移除非关键耦合结构。

2025-07-25 15:44:45 1032

原创关于LLM和生成式人工智能

它们能理解语言，并能对提示和问题、诗歌做出一致的回应、LLMs 擅长理解语言，对提示和问题做出连贯的回答，并生成各种创造性的文本形式，如诗歌、代码、脚本和音乐作品。不过，与一般的生成式人工智能不同，它无法创建图像等非文本内容。与非生成式 LLMs 相比，生成式 LLMs 因其优越的算法性能，成为当前 LLM 领域研发的主要焦点。的人工智能技术的总称。生成式人工智能就像一台创造性的机器，能够根据学习到的数据生成各种输出。人工智能又称**"创生式人工智能"** ，是能够。是生成式人工智能的一种，专门从事。

2025-07-20 19:54:51 204

转载 PIM（Processing in Memory）存内计算和NDP原理

PIM（Processing in Memory）是指将处理器嵌入到内存中形成存内计算芯片的一种架构。其允许在计算机、服务器或类似设备的内存中执行计算和处理2.PIM出现的背景——冯诺依曼瓶颈冯诺依曼瓶颈就是PIM出现的背景。在冯诺伊曼架构下，计算机主要包括中央处理器（CPU），内存单元和输入输出设备。其中CPU包括控制单元、计算单元和寄存器。由此可知，CPU和内存是互相独立存在的组件，它们之间需要依靠系统总线进行数据传输，这就引来了一定的数据传输延迟。

2025-07-20 16:29:23 482

转载在IEEE指定期刊中搜索相关文章

【代码】在IEEE指定期刊中搜索相关文章。

2025-07-19 21:08:11 691

qq_64242842的博客