静敬澹一

代码皮的炸药库。Mary!!

强化学习(Dyna-Q,Dyna2)

基于模型的强化学习(Model Based RL) Value Based --Policy Based --Model Based Value Based学习价值来指导策略,Policy Based直接学习策略以收获最大价值,还有将两者融合的AC。但是在学习价值或策略都十分困难的时候(如某千...

2019-03-28 20:48:57

阅读数 655

评论数 0

强化学习(DDPG,AC3,DPPO)

通过把Policy Based 和Value Based结合起来的Actor Critic,解决了Value Based如Q-Learning的无法解决连续和高维度问题,也解决了Policy Based的效率低速度慢的问题。但是同样的,想DQN一样,在使用神经网络进行值估计的时候,神经网络的相关性...

2019-03-27 12:16:28

阅读数 895

评论数 0

强化学习(Policy Gradient,Actor Critic)

强化学习是通过奖惩的反馈来不断学习的,在Q-Learning,Sarsa和DQN中,都是学习到了价值函数或对价值函数的近似,然后根据价值来选择策略(如选择最大价值的动作),所以这一类也被称为Value Based Model。但是这种处理方式有几处瓶颈: 处理连续动作效果差。对于高维度或连续...

2019-03-26 17:32:50

阅读数 326

评论数 0

强化学习(Double/Prioritised Replay/Dueling DQN)

Q_Learning和Sarsa中都是利用了Q表来记录Q值,小规模场景状态往往比较少,便可以方便的用表存储再查询更新,但很多现实问题状态和动作都很复杂,而且如果出现连续值的状态则需要等距离分割离散,存储量往往太大,比如像下围棋如果还用Q表来存状态是不可能的事情。那么如果不用Q表存取,怎么得到价值函...

2019-03-25 20:52:24

阅读数 540

评论数 0

强化学习(Q-Learning,Sarsa)

Reinforcement Learning 监督学习–>非监督学习–>强化学习。 监督学习:拥有“标签”可监督算法不断调整模型,得到输入与输出的映射函数。 非监督学习:无“标签”,通过分析数据本身进行建模,发掘底层信息和隐藏结构。 但是1.标签需要花大量的代价...

2019-03-25 18:34:16

阅读数 595

评论数 0

Generative Adversarial Networks(生成对抗网络GAN,DCGAN)

Generative Adversarial Networks GAN的想法很简单,一言以蔽之:以假乱真。 Generative(生成):GAN实际上可以看作是一个生成数据的工具。目标就是通过学习让自身生成更加真实的数据。 Adversarial (对抗):既然能够以假乱真,对抗的自然就是识...

2019-03-13 15:26:57

阅读数 758

评论数 0

Fine-turning(Tensorflow-Slim和Keras的迁移学习)

迁移学习是什么? 即:举一反三。即将已经训练好的模型稍加调整(fine-turning)即可应用于一个新的领域或者任务。 迁移学习为什么重要? 机器学习的默认假设,训练样本和测试样本满足独立同分布的前提是训练样本足够。 数据的稀缺性。如在想要做医学领域的图像处理,所能得到的样本是极端的...

2019-03-07 16:54:31

阅读数 616

评论数 0

目标检测(YOLO,FPN,RetinaNet,SSD)

在前一篇目标检测,所整理的R-CNN,SPP,Fast R-CNN,Faster R-CNN中,这些目标检测技术都只是两阶段,比如性能相对来说最好的Faster R-CNN,是先用RPN生成候选目标区域,然后再进行Fast R-CNN的方法,继续目标对象的分类和边框的回归预测。那有办法一步做完这些...

2019-03-03 16:15:22

阅读数 750

评论数 0

目标检测(R-CNN,SPP,Fast R-CNN,Faster R-CNN)

简而言之目标检测就是识别分类目标+框好对象。 虽然图像分类的表现已经突破天际,甚至准确率高于人类,但目标检测领域其实仍然处于发展阶段。早期的传统目标检测基本就是–匹配,即把目标对象裁剪后用一些类似角点检测的方法得到特征,再在图像上使用滑动窗口并依次对比。 等到卷积神经网络在图像处理领域开始大显...

2019-03-02 21:10:53

阅读数 712

评论数 0

Random Walk(随机游走)

金融和经济模型和概率统计学难以分离,对于这样的随机二级市场数据的理解和操作也是计算机科学的一个领域,十分有魅力的计算金融学。 普通数据挖掘方法大多都是确定性模型,对于输入的输出往往没有随机性,而一些能给出概率的随机性模型似乎更加的适用,如蒙特卡洛模拟,即模拟输入一堆的随机数进行评估。 几何布朗运...

2019-02-24 17:24:10

阅读数 931

评论数 0

Markov Chain Monte Carlo(MCMC采样)

MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Simulation,简称MC)和马尔科夫链(Markov Chain ,也简称MC)。要弄懂MCMC的原理我们首先得搞清楚蒙特卡罗方法和马尔科夫链的原理。 Monte Carlo方法: 为什么要使用它? θ=∫abf(x)dx...

2019-01-07 16:16:17

阅读数 1324

评论数 0

神经网络解决推荐系统问题(可解释性与TEM)

在综述中纷纷云云一言以蔽之就是各种技术的排列组合和性能优化。但神经网络很让人诟病的是它的“黑匣子”特性,在应用于推荐系统中时我们往往无法理解,即没有有效的可解释性。 比如CF 是很好的个性化推荐主流技术,但它只对用户–项目交互进行建模,不能为推荐提供具体的理由(仅仅是你的朋友喜欢那么你就会喜欢,...

2019-01-06 13:40:22

阅读数 972

评论数 0

神经网络解决推荐系统问题(综述:A Survey and New Perspectives )

--------随着网络信息数量的不断增加、复杂性和动态性的不断提高,推荐系统已经成为克服此类信息过载的一个有效的关键解决方案,它能够以个性化的方式来发现产品和服务,为用户提供向导。 过去几年深度学习在许多领域取得了巨大成功,首当其冲就是计算机视觉和语音识别。深度学习在处理复杂任务上能得到最好...

2019-01-01 20:19:14

阅读数 1142

评论数 0

神经网络解决推荐系统问题(ONCF)

Outer Product-based Neural Collaborative Filtering(ONCF) ϕGMF=puG⊙qiG,ϕMLP=aL(WLT(aL−1(...a2(W2T[puMqiM]+b2)...))+bL),y^ui=σ(hT[ϕGMFϕMLP]).&...

2018-12-22 16:39:23

阅读数 688

评论数 0

Bayesian Personalized Ranking(BPR个性化排序)

如题,在推荐系统中我们在推荐给用户的商品中一定是需要先后顺序的,即我们需要关心的是用户将会更喜欢我们所推荐的商品,从而得到–个性化排序。但是没错,前几篇所整理的方法目的也是为了预测用户喜好,但往往我们只能通过观察到的正例去估计暗含着负例与缺失值的“?”中,而实际填充也如上图一样,一般用0做填充。...

2018-12-21 15:28:43

阅读数 2263

评论数 0

神经网络解决推荐系统问题(NCF)

前一篇虽然是整理的AFM,但有提到过并行的DeepFM,也自然是还有串行的NFM,本来是想整理这两部分,但是想来它们其实都是利用FM和DNN进行各种各样的组合以提升模型的效果。所以不管是由共享embedding层的左边FM和右边DNN部分组成,而且可以同时学习到高维和低维的特征的DeepFM;还是...

2018-12-20 15:36:28

阅读数 1361

评论数 42

神经网络解决推荐系统问题(AFM)

对于函数的求解大多分为以下几种途径: 确定性求解:通过对数据的规律进行建模直接求解,如特征方程等。 确定性近似求解:通过变分推断的相关方法进行求解,如EM,变分自编码。 随机性近似求解: 通过采样的方法对函数进行求解,蒙特卡洛方法。 非结构化求解:DEEP LEARNING. 之所以是非...

2018-12-20 14:19:18

阅读数 603

评论数 0

Traditional Recommendation Methods(传统推荐系统FM)

在处理MF矩阵分解时使用过FunkSVD,最后在分解诶P,Q矩阵的时候果然还是用到了一般套路,根据预测y和实际y的差别梯度下降来寻找。所以能否直接从这个思路,把它变成多个特征的回归模型是否可行?y=w0+∑i=1nwixi,n表示特征数量y=w_{0}+\sum\limits_{i=1}^nw_...

2018-12-11 17:41:17

阅读数 1426

评论数 0

Traditional Recommendation Methods(传统推荐系统CF,MF)

开篇 此前所总结学习的机器学习算法无不可以运用到各种数据中,在有些算法的实现中合适的数据真的不那么的好找,特别是对于原生的算法来说甚至是自己生成有噪音的数据。但作为已经出现几十年的Internet,人们利用它去交流去交易去购买去娱乐同样也太久,也太多。没错,这些就是天然的信息,也是天然的数据,大...

2018-12-11 16:38:57

阅读数 917

评论数 0

Variational Autoencoder(变分自编码)

使用通用自编码器的时候,首先将输入encoder压缩为一个小的 form,然后将其decoder转换成输出的一个估计。如果目标是简单的重现输入效果很好,但是若想生成新的对象就不太可行了,因为其实我们根本不知道这个网络所生成的编码具体是什么。虽然我们可以通过结果去对比不同的对象,但是要理解它内部的工...

2018-01-22 15:05:00

阅读数 7885

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭