强化学习笔记:noisy DQN 噪声网络 (Noisy Net)是一种非常简单的方法,可以显著提高 DQN 的表现。噪声网络的应用不局限于 DQN,它可以用于几乎所有的强化学习方法。1 噪声网络的原理把神经网络中的参数 w 替换成 µ+σ◦ξ。 此处的 µ、σ、ξ 的形状与 w 完全相同。 µ、σ 分别表示均值和标准差,它们是神经网络的参数,需要从经验中学习。 ξ 是随机噪声,它的每个元素独立从标准正态分布 N (0, 1) 中随机抽取。 符号“◦”表示逐项乘积。 2 noisy...
强化学习笔记:对决网略(dueling network) 对决网络 (Dueling Network)是对 DQN 的神经网络的结构的改进。它基本想法是将最优动作价值 Q⋆ 分解成最优状态价值 V⋆ 与最优优势 D⋆。1 最优优势函数1.1 回顾一些基础知识 动作价值函数 最优动作价值 状态价值函数:Q(s,a)关于a的期望 最优价值函数 1.2 最优优势函数由于是指定了s和a之后的最优值,a不一定是使得V(s)最大的那个action,所...
DQN笔记:高估问题 & target network & Double DQN Q 学习算法有一个缺陷:用 Q 学习训练出的 DQN 会高估真实的价值,而且高估通常是非均匀的。 这个缺陷导致 DQN 的表现很差。 高估问题并不是 DQN 本身的缺陷,而是训练 DQN 用的 Q 学习算法的缺陷。1 自举(bootstrapping)导致的偏差传播1.1 DQN参数更新(回顾)Q-learning 算法每次从经验回放数组 (Replay Buffffer) 中抽取一个四元组。然后执行以下步骤,对 DQN 的参数做一轮更新:1,计算TD目标——&...
概率统计笔记:超几何分布 1 定义设有 N 个同类产品,其中 M 个次品。从中任取 n 个 (假定 n ≤ N -M)。则这 n 个中的次品数 X 是离散型随机变量则称X服从超几何分布2 和二项分布的关系超几何分布是无放回抽样结果;二项分布可以看成有放回抽样结果。 当产品总数 N 很大时,两者分布近似相等。 ...
数学知识整理:蒙特卡洛法近似定积分 1 一元函数的定积分近似给定一元函数f(x),求函数在a到b区间上的定积分蒙特卡洛法近似定积分的步骤如下:2 多元函数的定积分近似给定多元函数,求f在集合Ω上的定积分:蒙特卡洛法近似多元函数定积分的步骤如下:...
算法笔记 HITS算法 Hyperlink-induced Topic Search(注:个人觉得公式7写错了,应该是【最简单的验证方法,你令k=1,算出来也是不对的)个人感觉可以看成是李宏毅线性代数笔记 10: PageRank_UQI-LIUWJ的博客-CSDN博客_pagerank 举例更进一步的算法...
pandas笔记: Index对象 其实之前在python 库整理:pandas_UQI-LIUWJ的博客-CSDN博客我们已经遇到了,这里系统地说一下1 特点不可修改的数组 有序 支持可重复的keyinA=pd.Index([1,1,2,3,4])inA#Int64Index([1, 1, 2, 3, 4], dtype='int64')inA[2]=2'''TypeError: Index does not support mutable operations'''2 函数& .
论文笔记:NAOMI: Non-Autoregressive MultiresolutionSequence Imputation 2019 NIPS0 abstract缺失值插补是时空建模中的一个基本问题,从运动跟踪到物理系统的动力学。深度自回归模型受到错误传播的影响,这对于输入远程序列来说是灾难性的。在本文中,我们采用非自回归方法并提出了一种新颖的深度生成模型:非自回归多分辨率插补 (NAOMI),用于在给定任意缺失模式的情况下插补远程序列。 NAOMI 利用时空数据的多分辨率结构,并使用分而治之的策略从粗粒度到细粒度分辨率递归解码。我们通过对抗训练进一步增强了我们的模型。当对来自确定性和随机动力学系统的基准数据集进行广泛评
R笔记:读写文件 1 读文件1.1 读txtdata1<-read.table('tmp.txt',sep=',',header=FALSE)data1'' V1 V2 V3 V41 index x y NA2 1 2 3 NA3 2 3 4 NA4 3 4 5 NA''data2<-read.table('tmp.txt',sep=',',header=TRUE)data2'' index x y1 1 2
论文笔记 & R 笔记:imputeTS: Time Series Missing ValueImputation in R 0 摘要imputeTS 包专门研究单变量时间序列插补。它提供了多种最先进的插补算法实现以及用于时间序列缺失数据统计的绘图函数。虽然插补通常是一个众所周知的问题,并且被 R 包广泛覆盖,但找到能够填补单变量时间序列中缺失值的包更加复杂。其原因在于,大多数插补算法依赖于属性间相关性,而单变量时间序列插补则需要使用时间依赖性。本文介绍了 imputeTS 包及其提供的算法和工具。此外,它简要概述了 R 中的单变量时间序列插补。1 introduction从工业 (Billinton et al.
pytorch 笔记:torch.nn.Linear() VS torch.nn.function.linear() 在torch的官方文档中,我们可以看到,在torch.nn.Linear()中包装了 torch.nn.function.linear()毕竟两者的作用都是计算WX+b但使用上还是有一定的区别的1 nn.Linear()他自己实现了初始化,所以调用linear时候的形参是输入和输出的维度即可import torchx=torch.nn.Linear(5,2)data=torch.range(0,24).reshape(5,5)data'''tensor([[ 0.
论文笔记: BRITS: Bidirectional Recurrent Imputation for Time Series 2018 NIPS0 摘要时间序列在许多分类/回归应用程序中无处不在。但是,实际应用中的时间序列数据可能包含很多缺失值。因此,给定多个(可能相关的)时间序列数据,填充缺失值并同时预测它们的类标签很重要。现有的插补方法通常对基础数据生成过程进行强假设,例如状态空间中的线性动态。在本文中,我们提出了一种名为 BRITS 的新方法,该方法基于递归神经网络,用于时间序列数据中的缺失值插补。我们提出的方法直接学习双向循环动力系统中的缺失值,无需任何特定假设。估算值被视为 RNN 图的变量,可以在反向传播期间
matplotlib 笔记:饼图 & 嵌套饼图 1 饼图基本使用方法:plt.pie(x)x=[109,101,94,117]plt.figure(figsize=(8,8))label=['魏','蜀','吴','群']plt.pie(x,labels=label)plt.title('三国杀移动版各势力武将数量')1.1 参数说明autopct 设置百分比信息的字符串格式化方式,默认值为None,不显示百分比 也可以将autopct设置...
python库笔记:tqdm(python进度条) 1 tqdm一个快速,可扩展的Python进度条,可以在 Python 循环中添加一个进度提示信息用户只需要封装任意的迭代器 tqdm(iterator) 【如:tqdm(list)或者tqdm(数组)】from tqdm import tqdmfrom time import sleepfor i in tqdm(range(100)): sleep(0.1)1.1 主要参数mininterval 最小的更新时间 ascii 设置为true之
论文笔记:Learning with Noisy Labels for Sentence-level Sentiment Classification emnlp 20190 摘要深度神经网络 (DNN) 可以很好地拟合(甚至过度拟合)训练数据。 如果 DNN 模型使用带有噪声标签的数据进行训练,并在带有干净标签的数据上进行测试,则该模型可能表现不佳。 本文研究了使用噪声标签进行句子级情感分类的学习问题。 我们提出了一种新的 DNN 模型,称为 NETAB(作为带有 AB 网络的卷积神经网络的简写)来处理训练期间的噪声标签。 NETAB 由两个卷积神经网络组成,一个具有噪声转换层,用于处理输入噪声标签,另一个用于预测“干净”标签。 ...
数学笔记:pearson correlation coefficient VS spearman correlation coefficient 1 correlation 相关性相关性是两个变量线性相关的程度。 这是双变量数据分析的重要步骤。 相关性并不意味着因果关系!让我们通过两个例子来了解它的实际含义。夏季,冰淇淋的消费量会增加。 ——>气候(或者说是季节)和冰淇淋的销售额之间存在很强的相关性。 在这个特殊的例子中,我们看到存在因果关系,因为极端的夏季确实推动了冰淇淋的销售。 冰淇淋的销售或许与鲨鱼袭击有很强的相关性。 ——>现在我们可以在这里非常清楚地看到,鲨鱼袭击...
NTU课程笔记:CV6422 time series 1 time series的种类1.1 按照时间片连续 & 离散分类1.2 按照时间序列个数分类(第二个其实也就是multivariate time series)2 时间序列和其他数据的不同之处数据之间不是独立的 长时间序列并不一直是最好的 ——>时间序列会随着时间变化,所以长时间序列并不一定一直是很好的 时间序列的pattern是动态的,会随时间变化 ——>观测的顺序很重要 3 时间序列组成部分3.1 trend..
强化学习笔记:分层强化学习 1 传统强化学习的不足 & 为什么需要分层强化学习?传统的强化学习方法会面临维度灾难的问题,即当环境较为复 杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储空间急速增长,强化学习难以取得理想的效果。为了解决 维度灾难,研究者提出了分层强化学习(hierarchical reinforcement learning,HRL)。HRL的主要目标是将复杂的问题分解成多个小问题,分别解决小问题从而达到解决原问题的目的2 复习:强化学习&马...