夏树让-CSDN博客

原创为什么 dot-product attention 需要被 scaled？

在 Attention Is All You Need 这篇经典论文中，有提到两种较为常见的注意力机制：additive attention 和 dot-product attention。并讨论到，当 $d_k$ 较大时，additive attention 要优于 dot-product attention，这其中的原因是什么？为什么采用 scaled dot-product attention?

2020-03-23 14:01:16 32919 23

原创 transformers 在训练时一直卡着：Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0

在使用 transformers 中的 Trainer 进行模型训练时，发现程序一直卡着，没有进入模型的 forward 函数。Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. 一开始以为这个只是一个普通的 warning，没想到这就是问题所在。内核：5.4.0-149-generic。

2024-09-09 12:00:47 5282 2

原创 llama-cpp-python 程序 Pyinstaller 打包后运行报错（RuntimeError: Failed to load shared library ‘llama.dll‘）

本人基于 llama-cpp-python 构建了一个领域知识问答程序，并通过 Pyinstaller 打包成一个包含.exe运行文件的文件夹。该.exe在本机和另外三台电脑上运行正常，但在另两台上报错：RuntimeError: Failed to load shared library 'llama.dll'

2024-05-20 12:09:58 2078

原创 ElasticSearch 创建索引超时（ReadTimeoutError）

在查阅网络资料时，一开始以为是字面意思上的连接超时问题，但调大 timeout 参数也一样报错，而且之前用相同方法创建类似索引时并未出现该问题。elasticsearch.log（节选内容）在 Python 中调用。

2024-04-21 17:27:34 1718 2

原创如何让本地的 Neo4j 支持 APOC 库

如何让本地的 Neo4j 支持 APOC 库

2022-08-29 16:39:49 1166

原创使用 Pytorch 训练深度学习模型时常用的功能代码（保持更新）

使用 Pytorch 时常用的功能代码：固定随机种子；保存与加载模型参数、优化器状态等；正则化 EarlyStopping；超参的随机搜索 (random search)

2022-06-09 11:27:05 1733

原创从线性代数角度理解 PageRank 算法细节 (包含基于 NumPy 的代码实现)

描述 PageRank 算法的中心思想，并从线性代数角度解释 PageRank，阐述 PageRank 需要应对的两大问题：悬挂节点 (dangling nodes) 问题和非强连通图问题。给出了 PageRank 基于 NumPy 的实现。强连通图 (strongly connected graph)，随机矩阵 (stochastic matrix)，正矩阵 (positive matrix)。

2021-11-30 20:52:00 2606

原创 A Reading Note of Papers on Trajectory Prediction

A Dynamic and Static Context-Aware Attention Network for Trajectory PredictionWhyTraditional models consider the trajectory prediciton as a simple sequence prediction task. The ignorance of inter-vehicle interaction and environment influence degrades the

2021-09-25 15:06:38 450

原创英文 SCI 论文写作常用句式（保持更新）

英文 SCI 论文写作常用句式，Academic Phrasebank

2021-09-16 11:04:20 4369

原创 VS Code 中 LaTeX Workshop 插件的配置

在 VS Code 的 setting.json 中添加如下内容即可，详细操作可参考使用VSCode编写LaTeX ："latex-workshop.latex.tools": [ { // 编译工具和命令 "name": "xelatex", "command": "xelatex", "args": [ "-synctex=1",

2021-09-09 08:47:41 1855

原创无长度限制文档级中文翻英文小工具

文档级中翻英小工具基于百度翻译 API 实现了一个文档级翻译小工具。主要功能可翻译任意长度的 doc/docx 文档（不过受百度翻译API调用频率的限制，长文档翻译一般需要较长时间，特别是表格较多的文档）不局限于中文翻英文（可在 cofig.yaml 配置文件中指定源语言和目标语言）翻译结果能够保留源文档的段落样式效果图左为源文档，右为中翻英结果文档使用方法准备Python 环境需要先安装 Python（建议通过 Anaconda 安装），以及 requirements.tx

2021-04-30 14:11:19 1052

原创多任务学习为什么有效？

多任务学习（Multi-task Learning, MTL）为什么有效？我们可将 MTL 看作是 **归纳迁移**（inductive transfer）的一种形式，归纳迁移通过引入 **归纳偏置**（inductive bias）来提升模型性能

2021-04-21 12:42:37 2825

原创 Pytorch 中的 eval 模式，train 模式和梯度上下文管理器 torch.no_grad

前言本文将简要说明下 Pytorch 中模型的评估模式 (eval)，训练模式 (train) 和 torch.no_grad 梯度计算上下文管理器的区别与作用

2021-03-24 10:37:57 4473 2

原创 NLP 中的数据增强

NLP 常用数据增强方法：同义词替换（Synonym Replacement）、回译（Back Translation）、文本生成（Text Generation）

2020-11-29 21:02:31 2630

原创 FastBERT——自蒸馏模型与自适应调整推断时间技术

通过了解，我发现 FastBERT 更有趣些，它采用 **自蒸馏** （self-distilling）技术，即整个蒸馏过程仅需要单个模型，该模型即是老师又是学生，与以往的需要两个模型的蒸馏方案不同（如DistilBERT、TinyBERT），而且它能根据样本的难易程度 **适应性地调整推断时间** （adaptive inference time）。所以本文接下来重点介绍 FastBERT.

2020-10-17 18:06:34 2109

原创各类注意力机制的介绍 (Intra & Inter & Soft & Hard & Global & Local Attention)

注意力机制（Attention Mechanisms），intra-attention 与 inter-attention，soft-attention 与 hard-attention，global-attention 与 local attention.

2020-09-06 21:30:03 8017 2

原创 Python 常见错误排查

AttributeError、SyntaxError、TypeError、IndentationError、IOError、KeyError 错误排查

2020-08-25 11:20:11 1259

原创将 Anaconda 环境加入到 Jupyter Notebook / Jupyter Lab中，并实现 Jupyter Notebook 的远程访问与开机自启

将 Anaconda 环境加入到 Jupyter Notebook / Jupyter Lab中，并实现 Jupyter Notebook 的远程访问与开机自启

2020-08-16 19:01:13 18025 5

原创 NLP 领域的一些学习资源（保持更新）

样本不均衡分类问题的书籍、论文和工具库。自然语言处理（NLP）领域语料数据库。事件抽取（Event Extraction）相关论文。预训练中文词向量。

2020-05-22 21:33:31 539

原创证明：矩阵 AB 与 BA 具有相同的非零特征值

矩阵 AB 与 BA 具有相同的非零特征值。可以从两个方面证明该定理，第一种，借助相似矩阵之间拥有相同特征值的结论进行（要求 A,BA,BA,B 是可逆的）；第二种，则从公式 ABx=λxABx=\lambda xABx=λx 着手。先讲第一种。假设 A,BA,BA,B 是可逆的。我们知道矩阵 AAA 相似于矩阵 P−1APP^{-1}APP−1AP，其中 PPP 为任意的可逆矩阵。所以也存

2020-05-21 14:03:59 33263 15

原创证明：当且仅当 AB=BA 时，可对角化矩阵 A 与 B 具有相同的特征向量

当且仅当 AB=BA 时，可对角化矩阵 A 与 B 具有相同的特征向量也就是说， AB=BAAB=BAAB=BA 是两个可对角化矩阵 A 与 B 具有相同特征向量的充分且必要条件。先证必要性：假设可对角化矩阵 A 与 B 具有相同的特征向量，那么 A 与 B 拥有相同的对角化矩阵 S （由特征向量构成）使得满足：A=SΛ1S−1A = S\Lambda_1S^{-1}A=SΛ1S−1 以及 B=SΛ2S−1B=S\Lambda_2S^{-1}B=SΛ2S−1。其中的 Λ\LambdaΛ 代表由

2020-05-21 13:27:01 23746 14

原创证明：对于实对称矩阵，不同特征值对应的特征向量相互正交

**不同特征值对应的特征向量相互正交**，是实对称矩阵的一个重要属性，而且从这个属性出发可以证明实对称矩阵的另一个属性：**实对称矩阵必可相似对角化**。如果一个 n 维矩阵的不同特征值对应的特征向量相互正交，那么这个矩阵不同特征值对应的特征向量之间线性无关，即该矩阵具有 n 个线性无关的特征向量，所以该矩阵可相似对角化。

2020-05-21 13:18:40 83364 3

原创证明：矩阵不同特征值对应的特征向量之间线性无关

学习矩阵对角化（diagonalization）时需要了解一个定理：**不同特征值对应的特征向量线性无关**。我们知道，一个 n 维矩阵是否可以对角化取决于其是否具有 n 个线性无关的特征向量。所以，在上面的定理的基础上可以得出结论：**一个具有 n 个相互不同的特征值的 n 维矩阵必可对角化**。

2020-05-19 16:02:49 46078 8

原创线性代数部分定理的整理

在学习《Pattern Recognition and Machine Learning》和《Linear Algebra and Its Applicaition》过程中，对这两本书上出现的一些定理进行（不完整）整理。例如：对称矩阵的逆仍为对称矩阵；矩阵的逆唯一；矩阵的 LDU 分解唯一；

2020-04-15 19:11:30 760

原创逻辑斯谛回归与最大熵模型（Logistic Regression and Maximum Entropy Model）

**逻辑斯谛回归**（logistic regression）是机器学习中的经典分类方法，可用于二类或多类分类；最大熵原理是概率学习或估计的一个准则，最大熵原理认为在所有可能的概率模型的集合中，熵最大的模型是最好的模型。将其推广到分类问题得到**最大熵模型**（maximun entropy model）。逻辑斯谛回归是最大熵模型的一个特例，只需将逻辑斯谛回归模型所隐含的模型约束条件引入到最大熵模型中即可导出逻辑斯谛回归模型。最大熵原理是概率模型学习的一种通用准则，可有效避免模型的过拟合。逻辑斯谛回归和

2020-04-03 12:02:13 859

夏树让的博客