自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

南阁风起的博客

叶落南阁,贮而藏之以为纸。风起而盛,诗落神州三百篇。

  • 博客(26)
  • 收藏
  • 关注

原创 latex 引用及其他小技巧总结(实时更新)

引用格式常规引用 \cite{}如果需要 (人名,年份) 的引用不妨试试 \citep{}脚注常规脚注 \footnote{}如果是多次引用同一脚注,不妨试试:第一次:\footnote{… … …\label{foot1}}第二次:\footref{foot1}

2021-04-26 14:14:19 736

原创 github账号切换和提交历史修改

github账号切换和提交历史修改可以根据要切换的程度参考以下内容:git更换用户名和密码如何修改git commit的author信息hint: Updates were rejected because the tip of your current branch is behind hint: its remote counte...

2020-10-15 16:16:26 294

原创 ACM会议 acmart模板 camera-ready 技巧总结

问题简述visio 所画示意图中使用了mathtype 插件,所产生数学公式的字体未嵌入python matplotlib 所画数据图中包含不被允许的 type 3 字体,且未嵌入python matplotlib 所画图中的图例块和轮廓线是透明的插入的示意图上有 soft mask,造成透明Included packages cause settings of the class/style files to be ignored.其他问题:纸张大小、版本兼容性、压缩对象流中的图像质量等

2020-07-04 22:36:49 2134

原创 元强化学习(1):Meta-learning in Reinforcement Learning

强化学习在展现其强大学习能力的同时也深受其自身特性的困扰:系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此,近年来,元强化学习渐渐回归视线,即将基础强化学习方法中手动设定的超参数设定为元参数,通过元学习方法学习和调整元参数,进一步指导底层的强化学习过程。打算最近介绍一个系列,今天先来说说这篇2003年的《Meta-learning in Reinforc...

2020-03-25 18:48:48 5507

原创 部分推荐系统论文 list

经典模型:1.[CF] Empirical analysis of predictive algorithms for collaborative filtering2.[FM] Factorization machines3.[content-base] Content-based book recommending using learning for text categoriza...

2019-10-31 19:26:18 230

原创 用 tf.scan() 自主实现/改造 RNN cell (GRU/LSTM)

在tensorflow RNN layer的搭建(GRU,LSTM等)中,我们展示了如何调用 tensorflow 内置模块和函数,搭建RNN layer。然而,当一般的GRU/LSTM layer不适用时,我们希望对其 cell 进行改进,实现自主设计的改造版的RNN cell。这方面研究工作代表的典型有:Time-LSTM,论文链接为:What to Do Next: Modeling Us...

2019-10-28 19:47:41 727 1

原创 强化学习论文(6): Distributed Distributional Deterministic Policy Gradients (D4PG)

分布式-分布DDPG,发表在ICLR 2018论文链接:https://arxiv.org/pdf/1804.08617.pdf要点总结从两个方面对DDPG进行扩展:Distributed:对Actor,将单一Actor扩展至多个,并行收集experience,如算法Actor部分所示Distributional:对Critic,将Critic由一个函数扩展成一个分布在DDPG中:...

2019-08-06 19:02:14 2047 1

原创 tf.stop_grandient 用法

tensorflow的特点是,只需要通过Tensor变量构建Graph,和相应的优化目标 loss(也可以看作Graph的一部分),当调用优化器去minimize loss时,优化器会根据loss中所涉及的变量,自动进行BP,对所有的相关变量进行参数更新。在 tensorflow 多Agent 灵活保存、更新Graph的各部分参数(tf.variable_scope(), tf.get_coll...

2019-08-01 17:36:06 612

原创 学术会议 Rebuttal 模板资料留存

详见 https://www.cnblogs.com/baidut/p/6375371.html

2019-08-01 17:00:24 1934

原创 强化学习论文(5): Learning Latent Dynamics for Planning from Pixels

Google Brain,Deepmind 提出的 PlaNet论文地址:https://danijar.com/publications/2019-planet.pdf源码地址:https://github.com/google-research/planet摘要背景介绍模型算法实验评价...

2019-07-24 15:45:55 1946 1

原创 B-样条曲线教程

详见https://blog.csdn.net/tuqu/article/details/4749586

2019-07-19 17:37:44 784

原创 超限插值划分网格

问题描述在计算流体力学等工程应用问题中,需要对流场等待计算区域实施网格划分,使用数值方法求得被模拟对象的数值近似解。其中,网格划分的质量(精度,光滑程度)将直接影响计算结果的质量,是复杂数值计算问题的基础。对于边界规则的简单区域,可直接对边界参数域进行划分,将对应划分点相连即可。在实际工程中,我们常常遇到的是一些三边或者四边的曲面单元,其边界非常复杂。因而将其映射到参数域进行网格划分时,参数...

2019-07-19 17:25:04 3067

原创 强化学习中的熵

熵的典型使用概览主要有一下几种方式:TRPO,PPO方法:都是Policy Gradient方法和神经网络结合下的变体。使用off-policy更新(重用以前的交互经历)时,所得到的梯度是对真实梯度的一阶近似,因此需要控制步长在合理范围,步长大了近似就不准确了。于是,在策略梯度后面增加了KL-散度(相对熵)正则项,目的是控制步长/学习率1991williams,soft Q,soft AC...

2019-03-26 12:47:31 4254

原创 图强化学习(结构生成)

两篇相关论文:Graph Convolutional Policy Network for Goal-Directed Molecular Graph GenerationMolGAN: An implicit generative model for small molecular graphs论文内容不做详细介绍,只说一下想法:在化学中,要制造新化合物,就需要设计新的结构,并且满足化合...

2019-03-05 16:32:48 5319

原创 强化学习论文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

大规模离散动作空间内的深度强化学习摘要处理这样的任务需要:1. 在动作集合上的泛化能力; 2. 次线性查找复杂度。本文提出方法,利用先验知识将动作嵌入连续空间使其可以泛化;采用近似最近邻算法达到log⁡(n)\log (n)log(n)查找复杂度。背景知识介绍强化学习方法可分为两类:value-based policy, action-based policy.value-based...

2019-03-05 15:48:36 4223 3

原创 强化学习论文(3): One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

元学习(meta learning)框架下的分层模仿学习问题摘要引言meta-learning 方法模型实验结果

2019-02-23 22:40:10 870

原创 强化学习论文(2): Latent Space Policies for Hierarchical Reinforcement Learning

基于潜变量的层级强化学习,主要依赖的工作有:SAC和real NVP摘要本文的目标是设计一个层级强化学习算法,按照自底向上的方式逐层构建分层表示。不同与以往HRL强制底层agent使用高层信号,从而限制或削弱其能力,进而强制层次生成,本文提出的框架中的每一层都致力于直接完成任务。框架内的每一层都被添加了潜变量,可从先验分布中采样得到。最大熵强化学习将这些潜变量和每一层的策略结合起来,并且高层...

2019-02-23 16:05:54 1304

原创 强化学习论文(1): Soft Actor-Critic

加州伯克利大学发布的 off-policy model-free强化学习算法,soft actor-critic(SAC)论文地址为:Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor假定已经对经典强化学习建模和基本Actor-Critic方法有所了解...

2019-02-22 22:29:48 12494

原创 强化学习总结与展望

参考A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019强化学习领域的三个主要问题:采样复杂性(agent为了学习需要查看/收集的经验量)泛化与转移学习(任务A培训,相关任务B测试)分层RL(自动子目标分解)前两个问题...

2019-02-16 21:35:29 2113

原创 变分自编码器VAE(Variational Autoencoders)及示例代码

这里写一个中文版快速入门笔记,更细致的理论分析和推导见:Tutorial on Variational AutoencodersPs: 内容有点多,可能会花一点时间来写一个简单的VAE代码:...

2019-02-08 15:46:13 14717 2

原创 numpy pandas 数据处理操作总结

打开文件a = pd.read_csv('a.txt', header = None, sep = '[_\t]+')header控制文件中是否包含列名,sep控制划分方式,可使用正则表达式文件合并c = pd.concat([a,b])列相同的两个文件纵向连接文件排序a = a.sort_values(['col1','col2'])先根据列’col1’的值进行...

2019-02-07 15:47:12 3079

原创 tensorflow RNN layer的搭建(GRU,LSTM等)

以GRU为例:import tensorflow as tfdef get_encoder_layer(inputs, rnn_size, num_layers, layer_name): with tf.variable_scope(layer_name): def get_gru_cell(rnn_size): ...

2019-02-07 14:40:59 2690 3

原创 tensorflow 多Agent 灵活保存、更新Graph的各部分参数(tf.variable_scope(), tf.get_collection(), tf.train.Saver())

当使用tensorflow搭建机器学习模型时,简单的模型可以直接从输入X开始,一层层地设置变量和operation,最终得到输出Y^\hat{Y}Y^,并和label:Y一起计算出Loss Function,然后调用优化器最小化Loss即可。然而,复杂的模型往往涉及到这样的问题,有时候,我们并不希望像上面一样,直接对模型进行端到端的更新,又或者模型涉及到多个agent,有多个优化目标,这时候,我...

2019-02-06 18:40:46 1974

原创 python matplotlib 论文画图代码总结

最近赶了一篇论文,其中涉及到很多实验结果的绘制。最开始使用了pandas自带的plot功能,使用简单,但是很多细节都无法自己调节定制,默认的结果又相当的丑。于是参考了csdn上各位大佬的分享,这些分享都对在某一方面的某个问题进行详细介绍,链接如下,在此表示感谢:Python——使用matplotlib绘制柱状图python中matplotlib的颜色及线条控制: 配色大全,想找漂亮颜色上这里...

2019-02-05 17:22:21 10502 1

原创 广告点击延时反馈建模

论文Modeling Delayed Feedback in Display Advertising阅读笔记Abstract评估广告投放效果的重要指标:转化率(conversion rate) —– 在广告网站上采取行动的人占总浏览人数的比例。使用机器学习预估 conversion rate,从而预估收益。然而conversion很可能延时发生,比如看过一个商品广告,当时有些心动但...

2018-04-25 20:48:14 4185 6

原创 素数因子分解转化方法阅读笔记

论文Implementation of the boolean factoring algorithm阅读笔记AbstractBoolean Factoring Algorithm(Lomonaco): reduct IFP(integer factorization problem) to DNF-SAT. DNF-SAT is in P, the reduction take...

2018-04-25 19:47:03 908

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除