南阁风起-CSDN博客

原创 latex 引用及其他小技巧总结（实时更新）

引用格式常规引用 \cite{}如果需要 (人名,年份) 的引用不妨试试 \citep{}脚注常规脚注 \footnote{}如果是多次引用同一脚注，不妨试试：第一次：\footnote{… … …\label{foot1}}第二次：\footref{foot1}

2021-04-26 14:14:19 896

原创 github账号切换和提交历史修改

github账号切换和提交历史修改可以根据要切换的程度参考以下内容：git更换用户名和密码如何修改git commit的author信息hint: Updates were rejected because the tip of your current branch is behind hint: its remote counte...

2020-10-15 16:16:26 398

原创 ACM会议 acmart模板 camera-ready 技巧总结

问题简述visio 所画示意图中使用了mathtype 插件，所产生数学公式的字体未嵌入python matplotlib 所画数据图中包含不被允许的 type 3 字体，且未嵌入python matplotlib 所画图中的图例块和轮廓线是透明的插入的示意图上有 soft mask，造成透明Included packages cause settings of the class/style files to be ignored.其他问题：纸张大小、版本兼容性、压缩对象流中的图像质量等

2020-07-04 22:36:49 2550

原创元强化学习（1）：Meta-learning in Reinforcement Learning

强化学习在展现其强大学习能力的同时也深受其自身特性的困扰：系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此，近年来，元强化学习渐渐回归视线，即将基础强化学习方法中手动设定的超参数设定为元参数，通过元学习方法学习和调整元参数，进一步指导底层的强化学习过程。打算最近介绍一个系列，今天先来说说这篇2003年的《Meta-learning in Reinforc...

2020-03-25 18:48:48 5742

原创部分推荐系统论文 list

经典模型：1.[CF] Empirical analysis of predictive algorithms for collaborative filtering2.[FM] Factorization machines3.[content-base] Content-based book recommending using learning for text categoriza...

2019-10-31 19:26:18 264

原创用 tf.scan() 自主实现/改造 RNN cell (GRU/LSTM)

在tensorflow RNN layer的搭建(GRU,LSTM等)中，我们展示了如何调用 tensorflow 内置模块和函数，搭建RNN layer。然而，当一般的GRU/LSTM layer不适用时，我们希望对其 cell 进行改进，实现自主设计的改造版的RNN cell。这方面研究工作代表的典型有：Time-LSTM，论文链接为：What to Do Next: Modeling Us...

2019-10-28 19:47:41 826 1

原创强化学习论文(6): Distributed Distributional Deterministic Policy Gradients (D4PG)

分布式-分布DDPG，发表在ICLR 2018论文链接：https://arxiv.org/pdf/1804.08617.pdf要点总结从两个方面对DDPG进行扩展：Distributed：对Actor，将单一Actor扩展至多个，并行收集experience，如算法Actor部分所示Distributional：对Critic，将Critic由一个函数扩展成一个分布在DDPG中：...

2019-08-06 19:02:14 2234 1

原创 tf.stop_grandient 用法

tensorflow的特点是，只需要通过Tensor变量构建Graph，和相应的优化目标 loss（也可以看作Graph的一部分），当调用优化器去minimize loss时，优化器会根据loss中所涉及的变量，自动进行BP，对所有的相关变量进行参数更新。在 tensorflow 多Agent 灵活保存、更新Graph的各部分参数（tf.variable_scope(), tf.get_coll...

2019-08-01 17:36:06 708

原创学术会议 Rebuttal 模板资料留存

详见 https://www.cnblogs.com/baidut/p/6375371.html

2019-08-01 17:00:24 2080

原创强化学习论文(5): Learning Latent Dynamics for Planning from Pixels

Google Brain，Deepmind 提出的 PlaNet论文地址：https://danijar.com/publications/2019-planet.pdf源码地址：https://github.com/google-research/planet摘要背景介绍模型算法实验评价...

2019-07-24 15:45:55 2245 1

原创 B-样条曲线教程

详见https://blog.csdn.net/tuqu/article/details/4749586

2019-07-19 17:37:44 853

原创超限插值划分网格

问题描述在计算流体力学等工程应用问题中，需要对流场等待计算区域实施网格划分，使用数值方法求得被模拟对象的数值近似解。其中，网格划分的质量（精度，光滑程度）将直接影响计算结果的质量，是复杂数值计算问题的基础。对于边界规则的简单区域，可直接对边界参数域进行划分，将对应划分点相连即可。在实际工程中，我们常常遇到的是一些三边或者四边的曲面单元，其边界非常复杂。因而将其映射到参数域进行网格划分时，参数...

2019-07-19 17:25:04 3542

原创强化学习中的熵

熵的典型使用概览主要有一下几种方式：TRPO，PPO方法：都是Policy Gradient方法和神经网络结合下的变体。使用off-policy更新（重用以前的交互经历）时，所得到的梯度是对真实梯度的一阶近似，因此需要控制步长在合理范围，步长大了近似就不准确了。于是，在策略梯度后面增加了KL-散度（相对熵）正则项，目的是控制步长/学习率1991williams，soft Q，soft AC...

2019-03-26 12:47:31 4636

原创图强化学习（结构生成）

两篇相关论文：Graph Convolutional Policy Network for Goal-Directed Molecular Graph GenerationMolGAN: An implicit generative model for small molecular graphs论文内容不做详细介绍，只说一下想法：在化学中，要制造新化合物，就需要设计新的结构，并且满足化合...

2019-03-05 16:32:48 5494

原创强化学习论文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

大规模离散动作空间内的深度强化学习摘要处理这样的任务需要：1. 在动作集合上的泛化能力； 2. 次线性查找复杂度。本文提出方法，利用先验知识将动作嵌入连续空间使其可以泛化；采用近似最近邻算法达到log⁡(n)\log (n)log(n)查找复杂度。背景知识介绍强化学习方法可分为两类：value-based policy, action-based policy.value-based...

2019-03-05 15:48:36 4465 3

原创强化学习论文(3): One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

元学习(meta learning)框架下的分层模仿学习问题摘要引言meta-learning 方法模型实验结果

2019-02-23 22:40:10 1026

原创强化学习论文(2): Latent Space Policies for Hierarchical Reinforcement Learning

基于潜变量的层级强化学习，主要依赖的工作有：SAC和real NVP摘要本文的目标是设计一个层级强化学习算法，按照自底向上的方式逐层构建分层表示。不同与以往HRL强制底层agent使用高层信号，从而限制或削弱其能力，进而强制层次生成，本文提出的框架中的每一层都致力于直接完成任务。框架内的每一层都被添加了潜变量，可从先验分布中采样得到。最大熵强化学习将这些潜变量和每一层的策略结合起来，并且高层...

2019-02-23 16:05:54 1427

原创强化学习论文(1): Soft Actor-Critic

加州伯克利大学发布的 off-policy model-free强化学习算法，soft actor-critic（SAC）论文地址为：Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor假定已经对经典强化学习建模和基本Actor-Critic方法有所了解...

2019-02-22 22:29:48 12925

原创强化学习总结与展望

参考A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019强化学习领域的三个主要问题：采样复杂性（agent为了学习需要查看/收集的经验量）泛化与转移学习（任务A培训，相关任务B测试）分层RL（自动子目标分解）前两个问题...

2019-02-16 21:35:29 2213

原创变分自编码器VAE(Variational Autoencoders)及示例代码

这里写一个中文版快速入门笔记，更细致的理论分析和推导见：Tutorial on Variational AutoencodersPs: 内容有点多，可能会花一点时间来写一个简单的VAE代码：...

2019-02-08 15:46:13 15057 2

原创 numpy pandas 数据处理操作总结

打开文件a = pd.read_csv('a.txt', header = None, sep = '[_\t]+')header控制文件中是否包含列名，sep控制划分方式，可使用正则表达式文件合并c = pd.concat([a,b])列相同的两个文件纵向连接文件排序a = a.sort_values(['col1','col2'])先根据列’col1’的值进行...

2019-02-07 15:47:12 3139

原创 tensorflow RNN layer的搭建(GRU,LSTM等)

以GRU为例：import tensorflow as tfdef get_encoder_layer(inputs, rnn_size, num_layers, layer_name): with tf.variable_scope(layer_name): def get_gru_cell(rnn_size): ...

2019-02-07 14:40:59 2743 3

原创 tensorflow 多Agent 灵活保存、更新Graph的各部分参数（tf.variable_scope(), tf.get_collection(), tf.train.Saver()）

当使用tensorflow搭建机器学习模型时，简单的模型可以直接从输入X开始，一层层地设置变量和operation，最终得到输出Y^\hat{Y}Y^，并和label：Y一起计算出Loss Function，然后调用优化器最小化Loss即可。然而，复杂的模型往往涉及到这样的问题，有时候，我们并不希望像上面一样，直接对模型进行端到端的更新，又或者模型涉及到多个agent，有多个优化目标，这时候，我...

2019-02-06 18:40:46 2058

原创 python matplotlib 论文画图代码总结

最近赶了一篇论文，其中涉及到很多实验结果的绘制。最开始使用了pandas自带的plot功能，使用简单，但是很多细节都无法自己调节定制，默认的结果又相当的丑。于是参考了csdn上各位大佬的分享，这些分享都对在某一方面的某个问题进行详细介绍，链接如下，在此表示感谢：Python——使用matplotlib绘制柱状图python中matplotlib的颜色及线条控制: 配色大全，想找漂亮颜色上这里...

2019-02-05 17:22:21 10870 1

原创广告点击延时反馈建模

论文Modeling Delayed Feedback in Display Advertising阅读笔记Abstract评估广告投放效果的重要指标：转化率(conversion rate) —– 在广告网站上采取行动的人占总浏览人数的比例。使用机器学习预估 conversion rate，从而预估收益。然而conversion很可能延时发生，比如看过一个商品广告，当时有些心动但...

2018-04-25 20:48:14 4311 6

原创素数因子分解转化方法阅读笔记

论文Implementation of the boolean factoring algorithm阅读笔记AbstractBoolean Factoring Algorithm(Lomonaco): reduct IFP(integer factorization problem) to DNF-SAT. DNF-SAT is in P, the reduction take...

2018-04-25 19:47:03 985

南阁风起的博客