Mr.zwX-CSDN博客

原创【大模型】TableLLM论文总结

本文摘要了三篇关于大语言模型处理电子表格的最新研究。EMNLP 2024论文提出了一种高效编码方法，通过结构锚点识别、倒排索引和数值格式聚类来压缩75%内容，同时保留97%边界信息。arXiv 2025的TableLoRA设计了特殊标记编码器和2D LoRA，以增强模型对二维表格结构的理解。arXiv 2025的TablePilot则提出了一个四阶段框架，通过采样、模块化分析、优化和排序推荐符合人类偏好的表格分析方案。这些研究共同解决了电子表格处理中的结构理解、效率优化和结果推荐等核心挑战。

2025-05-24 17:35:51 1155

原创【力扣Hot 100】学习记录（Python版）

力扣hot 100刷题记录

2025-05-15 01:52:27 801

原创 ValueError: Converting from Tiktoken failed, if a converter for SentencePiece is available

【代码】ValueError: Converting from Tiktoken failed, if a converter for SentencePiece is available。

2025-03-25 18:58:03 442

原创【大模型推理】vLLM推理框架基本使用及注意事项

LLM是加载和推理大模型的包，SamplingParams是生成时采样参数。

2025-03-10 14:21:51 847

原创【DeepSeek-R1训练笔记】随手记录一些训练log

# 背景说明* DeepSeek系列解读请移步我的上一篇blog：[【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra）](https://blog.csdn.net/qq_16763983/article/details/145434745?spm=1001.2014.3001.5501)* 代码仓库【科大的大四老哥太太太太太值得倾佩了】：[https://github.com/Unakar/Logic-RL](https://github.com/Unakar/Logic-RL)

2025-02-07 22:24:55 969 6

原创【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra、复现代码）

MoE在每次推理时选择性地激活部分模型参数，在不成比例增加计算成本的情况下，可以扩展模型参数。在DeepSeek-V2中就提出了用于FFN层的DeepSeekMoE，DeepSeek-R1在DeepSeek-V2基础上进一步优化。

2025-02-04 00:54:03 8364

原创 pip install时出现error: subprocess-exited-with-error的报错

遇到这种情况，一般是安装的包和其他包之间存在一些冲突，第一种方式是直接解决冲突，比如上面例子中先安装torch就好了。这种方式强制忽视包之间的依赖性，先安装好，然后再运行项目看看有没有其他的报错，耐心逐一解决。

2024-12-04 13:55:52 2593

原创上传本地项目到GitHub远程仓库（极简洁操作版）

除了以上流程，通常还有另一种上传思路：将一个普通的本地文件转换成一个git项目，涉及到。以上操作流程是最简单（粗暴）版，不涉及版本管理、分支切换、文件更新等。

2024-10-06 15:31:56 991 1

原创 OSError: Missing dependencies for SOCKS support

在跑huggingface代码时，需要挂代理以保证网络可以顺利连接到huggingface官网。这个报错看起来是缺少一些系统依赖包，但实际上，这就是一个简单的Python库缺失问题。先关掉所有代理，再尝试用pip安装即可成功。

2024-09-23 00:41:40 566

原创【隐私计算】安全多方计算MPC中的高效三角函数计算

其中，四项都可以在client和server端本地（local）计算，不带来任何通信开销。唯一的通信开销来自两次乘法，需要双方通过不经意传输（OT）共同计算。最后加法也是本地完成，不带来任何通信开销。隐私计算中的非线性函数很难算，或者开销很大。三角函数更是如此，Squirrel文章中提出了一种高效的计算方式，感觉可以作为一种通用优化方案。

2024-09-14 00:26:34 872

原创关于使用HAWQ量化框架执行训练前推理的性能崩溃问题

所以HAWQ中使用validate应该是针对在做/做过量化训练的模型而言的，因此此时就保存好了self.min和self.max值，推理没问题。而对于我们这种情况（也就是加载浮点模型，然后直接过量化验证效果），是没有初始self.min和self.max值的，导致出错。函数，其作用是跑量化函数时不计算模型的self.min和self.max（默认为0），导致的后果是scale算出来非常非常小，量化值（x/scale）非常非常大，clamp后所有值都被截到了两个表示范围的边缘，变成了-128或127。

2024-09-11 21:49:59 395

原创【CMake编译报错小复盘】CMAKE_CUDA_ARCHITECTURES，CMake version，GCC version问题

但是并没有这么顺利，我发现在编译时仍然会报错gcc版本过低。下面是我猜测的原因，我将gcc的路径打印（whereis gcc）出来，发现有多个路径，也许系统默认选择了第一个路径，也就是老版本。这个问题比较棘手，需要手动下载新版的gcc，然后激活新版的gcc以替换旧版本。当出现这个报错时，本质问题并不是没有指定所谓的cuda architecture参数，而是找不到nvcc路径。然后编译了一次好像没生效，然后我再编译了一次，发现编译成功！cmake和cuda相关的报错通常都很“调虎离山”。

2024-09-10 01:51:22 1885

原创对模拟出来的网络环境进行检查

之前记录了一篇用throttle.sh脚本实现对不同带宽和网速的网络环境模拟（），这里再记录一下如何验证当前带宽和网速是预期的样子。

2024-08-15 13:57:25 294

原创用huggingface_hub实现优雅快速的HuggingFace模型下载

使用transformers库下载huggingface模型时，会遇到网络无法访问网站的问题。因此，这里记录一种HuggingFace官方提供的命令行工具：huggingface-cli，实现快速的模型下载。

2024-08-13 15:15:49 1438

原创关于CUDA error: device-side assert triggered问题小技巧

耐心debug，但是在多线程代码中无法使用pdb来调试，听说可以关掉多线程或者不用gpu跑，就可以调试并显示出出错的代码位置了。遇到这种cuda的越界bug，可以优先查看是不是scatter代码处出现越界！去仔细检查mask的维度能否存得下topk的值。

2024-08-12 17:06:09 833

原创【密码学基础】基于LWE（Learning with Errors）的全同态加密方案

sk和pk相乘得到2e（KeyGen时满足的条件），然后和r做内积得到一个很小的偶数噪声，最终的结果就是m+很小的偶数噪声，于是通过mod 2就能将噪声消除，得到解密结果m。到这里，通过LWE实现了很小深度的同态乘法和加法计算，key switching则是对每层用新的密钥，但是随着计算深度加深，噪声的扩大是爆炸性的，因此还不是一个levelled FHE（能计算指定深度的FHE）。）时，pk和pk乘r都是伪随机的。加密用的公钥pk，r是一个只包含0或1的随机向量，m是待加密的信息（放在向量的最低位上）。

2024-07-08 19:26:46 1801 1

原创【密码学基础】对随机不经意传输（Random Oblivious Transfer）的理解

ROT在offline阶段生成大量的OT对，在online阶段通过one-pad方式高效加密，并且只需要简单的异或运算就能实现OT过程（去随机化）。在ROT中，有一个关键点是：需要考虑offline阶段的选择比特和online阶段的选择比特之间的关系，从而得到不同的加密构造方式。

2024-07-01 18:02:13 502

原创【隐私计算】对SIMD编码的粗浅理解

将单个数编码到一个N阶（N项）多项式中，多项式系数的利用率极低。而在神经网络中，我们需要计算的东西往往是一个很大的矩阵/tensor，并非不是单个数。所以需要打包编码技术（packing）将很多数同时编码到同一个多项式中，来提高多项式系数的利用率。SIMD指的是把一系列数通过中国剩余定理（CRT）打包（pack）到同一个多项式中，使一次多项式乘法计算可以完成多次明文乘法。系数编码可以参考Cheetah的做法，Cheetah自定义了一套编码规则，使多项式相乘后的结果多项式中的一些系数正好是需要的卷积结果。

2024-06-28 14:34:45 1312 1

原创【恶补计算机基础】定点数和浮点数

在计算机中，小数点及其位置并不是显式表示出来的，而是隐含规定的。根据小数点的位置，可以分为两类：定点数和浮点数。

2024-06-06 13:11:58 1059

原创用Transformers库实现基础的大模型文本生成以及KV cache注意事项

这个就是标准的自回归生成任务了，不管是GPT还是Llama，都是如此（至少PyTorch版本都是这样的，Flax版本的KV cache有点奇怪，用的lax.dynamic_update_slice(cached_key.value, key, indices)，KV cache的维度并没有随着token的生成而增加…根据输入的prompt，生成一段指定长度的文字。Llama跑起来太慢了，这里用GPT-2作为列子。

2024-05-14 02:32:58 1126 2

原创【Python踩坑】关于tensor reshape后做运算（求和/平均）的问题

总结一句，如果想将tensor分成n组，然后对每组进行运算（比如求和、求平均），那么，要记得把组数放在前面的维度上（也就是上面例子中的3），把每组的元素数放在后面的维度上（也就是上面例子中的2）。试想一个简单的问题：一个维度是[1, 6]的tensor，我想其中的6个元素分成3组，每组2个元素，然后对每组中的元素求平均值，得到一个维度是3的输出。应该怎么用Python实现？最直观的想法就是：将[1, 6]先reshape成[2, 3]或[3, 2]，然后在2对应的维度上进行运算，最终得到维度是3的结果。

2024-05-01 01:09:22 403 3

原创【大模型LLM基础】自回归推理生成的原理以及什么是KV Cache？

通过缓存以前的键（Key）和值（Value），我们可以只关注计算新token的注意力。如下图，每当来一个新的tokenqnewq_{new}qnew时，计算得到新的knewk_{new}knew和vnewv_{new}vnew，并将其拼接（concat）到缓存的KprevK_{prev}Kprev和VprevV_{prev}Vprev中。假设TTT是序列长度，DDD。

2024-03-25 18:47:34 5569 4

原创【Bit-level量化】BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization

论文题目：[ICLR 2021] BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization其中，www是浮点表示，wqw_qwq是对应的nnn-bit定点表示。反向传播时，由于Round函数不可微分，所以求导时用浮点www代替wqw_qwq进行梯度计算。前向传播使用wqw_qwq计算模型输出和损失函数，反向传播使用浮点www计算梯度，并且www在整个训练过程中都保持浮点表示！第1步：提取W的动态

2024-02-06 17:32:56 1259 1

原创由vscode自动升级到1.86导致的“终端可以ssh服务器，但是vscode无法连接服务器”

简单来说就是，ssh配置没动，前两天还可以用vscode连接服务器，今天突然就连不上了，但是用本地终端ssh可以顺利连接。

2024-02-03 17:38:27 3138 7

原创快速数论变换NTT学习笔记

数论变换（number-theoretic transform, NTT）是离散傅里叶变换（DFT）在数论基础上的实现。NTT是一种计算卷积的快速算法，FFT也是其中一种。但是FFT具有一些实现上的缺点，举例来说，向量必须乘上复数系数的矩阵进行处理，而且每个复数系数的实部和虚部是一个正弦及余弦函数，因此大部分的系数都是浮点数，也就是说，必须做浮点复数运算，计算量会比较大，并且浮点数运算产生的误差会比较大。NTT解决的是多项式乘法带模数的情况，受到模数的限制，数也比较大。

2024-01-25 13:17:08 1855

原创快速傅立叶变换FFT学习笔记

FFT（Fast Fourier Transformation）是离散傅氏变换（DFT）的快速算法，即快速傅氏变换。FFT使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数N越多，FFT算法计算量的节省就越显著。FFT可以将多项式乘法的复杂度从On2降到Onlogn。下图是FFT的整体计算流程，FFT变换的复杂度为Onlogn，FFT域上的pointwise乘法的复杂度为On，逆FFT变换的复杂度为Onlogn，总体复杂度为On。

2024-01-21 23:09:14 1660

原创 PyTorch中定义可学习参数及放入cuda时的坑

必须要注意的是，新定义的self.alpha必须要放入optimizer中才可以训练，因此，上面这段预推理的代码必须要放在声明optimizer之前！采用这种写法的话，必须要在正式训练模型之前进行一次预推理，该预推理可以是伪输入数据的推理，目的是预推理时构建好每一层所需要的self.alpha可学习参数。写法1先定义nn.Parameter，后放入cuda，会导致参数重新变回到tensor，从而不可学习；写法2先放入cuda，后定义nn.Parameter，可以成功定义参数，可以学习。

2024-01-18 19:04:47 1235 1

原创 Pruning Papers

slS1−nl−1nlnl−1∗nl)1−nl−1nlwlhlnl−1∗nl∗wl∗hl。

2024-01-03 13:39:51 1147

原创去掉乘法运算的加法移位神经网络架构

Adder层的输出都是负的，所以网络中引入batch normalization（BN）层和激活函数层。可以看到，AdderNet在三个CNN模型上都掉点很少，并且省去了所以乘法，也没有BNN中的XNOR操作，只是有了更多的加法，效率应该显著提高。但是，signSGD几乎没有采取最陡的下降方向，随着维度的增长，下降方向只会变得更糟，所以不适用于大参数量的模型优化。一种最直接的思路就是采用更大的学习率，本文发现不同层的梯度值差异很大，所以为了考虑不同层的filter情况，提出了不同层的自适应学习率。

2023-12-19 02:20:18 1761

空空如也

空空如也