自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夏树让的博客

步履不停

  • 博客(35)
  • 收藏
  • 关注

原创 为什么 dot-product attention 需要被 scaled?

在 Attention Is All You Need 这篇经典论文中,有提到两种较为常见的注意力机制:additive attention 和 dot-product attention。并讨论到,当 $d_k$ 较大时,additive attention 要优于 dot-product attention,这其中的原因是什么?为什么采用 scaled dot-product attention?

2020-03-23 14:01:16 30108 22

原创 transformers 在训练时一直卡着:Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0

在使用 transformers 中的 Trainer 进行模型训练时,发现程序一直卡着,没有进入模型的 forward 函数。Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. 一开始以为这个只是一个普通的 warning,没想到这就是问题所在。内核:5.4.0-149-generic。

2024-09-09 12:00:47 457

原创 llama-cpp-python 程序 Pyinstaller 打包后运行报错(RuntimeError: Failed to load shared library ‘llama.dll‘)

本人基于 llama-cpp-python 构建了一个领域知识问答程序,并通过 Pyinstaller 打包成一个包含.exe运行文件的文件夹。该.exe在本机和另外三台电脑上运行正常,但在另两台上报错:RuntimeError: Failed to load shared library 'llama.dll'

2024-05-20 12:09:58 1052

原创 ElasticSearch 创建索引超时(ReadTimeoutError)

在查阅网络资料时,一开始以为是字面意思上的连接超时问题,但调大 timeout 参数也一样报错,而且之前用相同方法创建类似索引时并未出现该问题。elasticsearch.log(节选内容)在 Python 中调用。

2024-04-21 17:27:34 967 2

原创 如何让本地的 Neo4j 支持 APOC 库

如何让本地的 Neo4j 支持 APOC 库

2022-08-29 16:39:49 869 1

原创 使用 Pytorch 训练深度学习模型时常用的功能代码(保持更新)

使用 Pytorch 时常用的功能代码:固定随机种子;保存与加载模型参数、优化器状态等;正则化 EarlyStopping;超参的随机搜索 (random search)

2022-06-09 11:27:05 1556

原创 从线性代数角度理解 PageRank 算法细节 (包含基于 NumPy 的代码实现)

描述 PageRank 算法的中心思想,并从线性代数角度解释 PageRank,阐述 PageRank 需要应对的两大问题:悬挂节点 (dangling nodes) 问题 和 非强连通图问题。给出了 PageRank 基于 NumPy 的实现。强连通图 (strongly connected graph),随机矩阵 (stochastic matrix),正矩阵 (positive matrix)。

2021-11-30 20:52:00 2039

原创 A Reading Note of Papers on Trajectory Prediction

A Dynamic and Static Context-Aware Attention Network for Trajectory PredictionWhyTraditional models consider the trajectory prediciton as a simple sequence prediction task. The ignorance of inter-vehicle interaction and environment influence degrades the

2021-09-25 15:06:38 356

原创 英文 SCI 论文写作常用句式(保持更新)

英文 SCI 论文写作常用句式,Academic Phrasebank

2021-09-16 11:04:20 2150

原创 VS Code 中 LaTeX Workshop 插件的配置

在 VS Code 的 setting.json 中添加如下内容即可,详细操作可参考 使用VSCode编写LaTeX :"latex-workshop.latex.tools": [ { // 编译工具和命令 "name": "xelatex", "command": "xelatex", "args": [ "-synctex=1",

2021-09-09 08:47:41 1371

原创 无长度限制文档级中文翻英文小工具

文档级中翻英小工具基于百度翻译 API 实现了一个 文档级翻译小工具。主要功能可翻译任意长度的 doc/docx 文档(不过受百度翻译API调用频率的限制,长文档翻译一般需要较长时间,特别是表格较多的文档)不局限于中文翻英文(可在 cofig.yaml 配置文件中指定源语言和目标语言)翻译结果能够保留源文档的段落样式效果图左为源文档,右为中翻英结果文档使用方法准备Python 环境需要先安装 Python(建议通过 Anaconda 安装),以及 requirements.tx

2021-04-30 14:11:19 663

原创 多任务学习为什么有效?

多任务学习(Multi-task Learning, MTL)为什么有效?我们可将 MTL 看作是 **归纳迁移**(inductive transfer)的一种形式,归纳迁移通过引入 **归纳偏置**(inductive bias)来提升模型性能

2021-04-21 12:42:37 2330

原创 Pytorch 中的 eval 模式,train 模式 和 梯度上下文管理器 torch.no_grad

前言本文将简要说明下 Pytorch 中模型的 评估模式 (eval),训练模式 (train) 和 torch.no_grad 梯度计算上下文管理器的区别与作用

2021-03-24 10:37:57 3992 2

原创 NLP 中的数据增强

NLP 常用数据增强方法:同义词替换(Synonym Replacement) 、回译(Back Translation)、文本生成(Text Generation)

2020-11-29 21:02:31 2247

原创 FastBERT——自蒸馏模型与自适应调整推断时间技术

通过了解,我发现 FastBERT 更有趣些,它采用 **自蒸馏** (self-distilling)技术,即整个蒸馏过程仅需要单个模型,该模型即是老师又是学生,与以往的需要两个模型的蒸馏方案不同(如DistilBERT、TinyBERT),而且它能根据样本的难易程度 **适应性地调整推断时间** (adaptive inference time)。所以本文接下来重点介绍 FastBERT.

2020-10-17 18:06:34 1617

原创 各类注意力机制的介绍 (Intra & Inter & Soft & Hard & Global & Local Attention)

注意力机制(Attention Mechanisms),intra-attention 与 inter-attention,soft-attention 与 hard-attention,global-attention 与 local attention.

2020-09-06 21:30:03 6553 2

原创 Python 常见错误排查

AttributeError、SyntaxError、TypeError、IndentationError、IOError、KeyError 错误排查

2020-08-25 11:20:11 609

原创 将 Anaconda 环境加入到 Jupyter Notebook / Jupyter Lab中,并实现 Jupyter Notebook 的远程访问与开机自启

将 Anaconda 环境加入到 Jupyter Notebook / Jupyter Lab中,并实现 Jupyter Notebook 的远程访问与开机自启

2020-08-16 19:01:13 14060 5

原创 NLP 领域的一些学习资源(保持更新)

样本不均衡分类问题的书籍、论文和工具库。自然语言处理(NLP)领域语料数据库。事件抽取(Event Extraction)相关论文。预训练中文词向量。

2020-05-22 21:33:31 396

原创 证明:矩阵 AB 与 BA 具有相同的非零特征值

矩阵 AB 与 BA 具有相同的非零特征值。可以从两个方面证明该定理,第一种,借助相似矩阵之间拥有相同特征值的结论进行(要求 A,BA,BA,B 是可逆的);第二种,则从公式 ABx=λxABx=\lambda xABx=λx 着手。先讲第一种。假设 A,BA,BA,B 是可逆的。我们知道矩阵 AAA 相似于矩阵 P−1APP^{-1}APP−1AP,其中 PPP 为任意的可逆矩阵。所以也存

2020-05-21 14:03:59 26973 14

原创 证明:当且仅当 AB=BA 时,可对角化矩阵 A 与 B 具有相同的特征向量

当且仅当 AB=BA 时,可对角化矩阵 A 与 B 具有相同的特征向量也就是说, AB=BAAB=BAAB=BA 是 两个可对角化矩阵 A 与 B 具有相同特征向量的充分且必要条件。先证 必要性:假设可对角化矩阵 A 与 B 具有相同的特征向量,那么 A 与 B 拥有相同的对角化矩阵 S (由特征向量构成)使得满足:A=SΛ1S−1A = S\Lambda_1S^{-1}A=SΛ1​S−1 以及 B=SΛ2S−1B=S\Lambda_2S^{-1}B=SΛ2​S−1。其中的 Λ\LambdaΛ 代表由

2020-05-21 13:27:01 18044 10

原创 证明:对于实对称矩阵,不同特征值对应的特征向量相互正交

**不同特征值对应的特征向量相互正交**,是实对称矩阵的一个重要属性,而且从这个属性出发可以证明实对称矩阵的另一个属性:**实对称矩阵必可相似对角化**。如果一个 n 维矩阵的不同特征值对应的特征向量相互正交,那么这个矩阵不同特征值对应的特征向量之间线性无关,即该矩阵具有 n 个线性无关的特征向量,所以该矩阵可相似对角化。

2020-05-21 13:18:40 70348 3

原创 证明:矩阵不同特征值对应的特征向量之间线性无关

学习矩阵对角化(diagonalization)时需要了解一个定理:**不同特征值对应的特征向量线性无关**。我们知道,一个 n 维矩阵是否可以对角化取决于其是否具有 n 个线性无关的特征向量。所以,在上面的定理的基础上可以得出结论:**一个具有 n 个相互不同的特征值的 n 维矩阵必可对角化**。

2020-05-19 16:02:49 40513 6

原创 线性代数部分定理的整理

在学习 《Pattern Recognition and Machine Learning》和 《Linear Algebra and Its Applicaition》过程中,对这两本书上出现的一些定理进行(不完整)整理。例如:对称矩阵的逆仍为对称矩阵;矩阵的逆唯一;矩阵的 LDU 分解唯一;

2020-04-15 19:11:30 584

原创 逻辑斯谛回归与最大熵模型(Logistic Regression and Maximum Entropy Model)

**逻辑斯谛回归**(logistic regression)是机器学习中的经典分类方法,可用于二类或多类分类;最大熵原理是概率学习或估计的一个准则,最大熵原理认为在所有可能的概率模型的集合中,熵最大的模型是最好的模型。将其推广到分类问题得到**最大熵模型**(maximun entropy model)。逻辑斯谛回归是最大熵模型的一个特例,只需将逻辑斯谛回归模型所隐含的模型约束条件引入到最大熵模型中即可导出逻辑斯谛回归模型。最大熵原理是概率模型学习的一种通用准则,可有效避免模型的过拟合。逻辑斯谛回归和

2020-04-03 12:02:13 576

原创 神经网络正则化方法——Dropout

本文详细描述了 Dropout,介绍了 Dropout 的提出背景、基本概念、设计动机以及实现的一般方法。由于训练集或多或少会存在一些噪音,而且无法保证训练集能够准确反映样本的真实分布,所以在训练集上的过分拟合会造成神经网络泛化能力的不足,在测试集上表现远不如其在训练集上的表现,而我们往往更关注于前者。为了缓解这个问题,就需要采取一些正则化措施(regularization),在保证模型足够强大的同时避免模型过拟合(over-fitting)。

2020-03-27 20:14:29 2047

原创 最大似然估计与最大后验估计之间的联系

最大似然估计(Maximum Likelihood Estimation,MLE) 和 最大后验估计(Maximun A Posterior,MAP) - 介绍 MLE 和 MAP 方法用于参数估计的大致步骤。 - 详细介绍 MLE 和 MAP,包括其原理和计算过程。 - 讨论 MLE 和 MAP 的联系。

2020-03-07 17:32:01 651

原创 在 Pytorch 中实现 early stopping

在 Pytorch 中实现 early stopping

2019-12-20 22:19:05 26741 35

原创 在 Pytorch 中实现超参的 random search

在 pytorch 中实现超参的随机搜索 random search

2019-12-20 21:01:03 10729 20

原创 numpy.array 以整数数据初始化数组后造成的精度损失问题

numpy.array的数据类型dtype问题:以整数数据初始化数组后,重新赋值浮点数(小数)后,数据精度降低。

2019-10-12 18:51:27 3088

原创 Sigmoid型函数梯度消失、“死亡”ReLUs 和 RNNs梯度爆炸问题

Sigmoid型函数的梯度消失问题;死亡ReLU问题;RNNs梯度爆炸问题。

2019-10-11 16:45:13 3421

原创 MyBatis Generator XML 配置文件使用参考

MyBatis Generator XML配置文件使用参考这篇文章是对MyBatis Generator官网有关于XML配置文件相关内容的大致翻译。

2019-07-23 15:17:28 520

原创 MyBatis Generator:[WARNING] Table Configuration users matched more than one table

MyBatis Generator:[WARNING] Table Configuration users matched more than one table使用MyBatis Generator生成代码时遇到的问题以及解决方法

2019-07-23 09:55:18 4689 9

原创 使用 c#_ArcEngine遇到的一些问题

窗体form.Show()与form.ShowDialog();导入Shapefile文件,也需要:.dbf文件和 .shx文件;未能将网站配置为使用ASP.NET 4.0;GISMapControl.MainForm”不包含“miSpatialFilterToolStripMenuItem_Click”的定义;Cannot acquire a lock;A requested feature object could not be located

2018-05-10 00:19:10 4386 1

原创 百度地图--实时显示轨迹

利用百度地图API实现实时轨迹的显示花了本人不少精力,废话不多说,直接进入主题。第一步因为要实现轨迹的显示,配置环境是必不可少的。我同时用到了鹰眼轨迹Android SDK和Android定位SDK,配置过程那两个链接有详细的说明,这里也不多说了。我配置后的图片: 第二步设置AndroidManifest.xml,前提是你已经申请了密钥。 1、在Application标签中声明SERVICE组件

2017-05-27 23:00:34 23222 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除