自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 资源 (21)
  • 收藏
  • 关注

原创 【用Python学习Caffe】0. 前言及介绍

0.前言及介绍老实说现在的Caffe已经不够流行了(说到这里,我有点无力了,近年来深度学习发展实在是太快了,完全跟不上学习脚步了,刚刚Caffe有点了解后,马上就要跟不上时代了=_=||)。如果对于现在的我来说,我更愿意推荐去学习Tensorflow或者是Pytorch,甚至是Caffe2。因为这些框架都有大公司参与开发,相关的学习资料更全,前段时间刚上手Tensorflow,个人感觉开发起来要比C

2017-06-22 21:50:15 10200 2

原创 【深度剖析HMM(附Python代码)】1.前言及隐马尔科夫链HMM的背景

1. 前言隐马尔科夫HMM模型是一类重要的机器学习方法,其主要用于序列数据的分析,广泛应用于语音识别、文本翻译、序列预测、中文分词等多个领域。虽然近年来,由于RNN等深度学习方法的发展,HMM模型逐渐变得不怎么流行了,但并不意味着完全退出应用领域,甚至在一些轻量级的任务中仍有应用。本系列博客将详细剖析隐马尔科夫链HMM模型,同以往网络上绝大多数教程不同,本系列博客将更深入地分析HMM,不仅包括

2017-04-27 12:24:50 56753 12

原创 编写C语言版本的卷积神经网络CNN之一:前言与Minst数据集

卷积神经网络是深度学习的基础,但是学习CNN却不是那么简单,虽然网络上关于CNN的相关代码很多,比较经典的是tiny_cnn(C++)、DeepLearnToolbox(Matlab)等等,但通过C语言来编写CNN的却比较少,本人因为想在多核DSP下运行CNN,所以便尝试通过C语言来编写,主要参考的代码是DeepLearnToolbox的内容,DeepLearnToolbox是用Matlab脚本编写,是我看过的最为简单的CNN代码,代码清晰,阅读方便,非常适合新手入门学习。 本文的CNN代码是

2016-06-29 22:12:07 69106 48

原创 (多核DSP快速入门)0.前言+CCS的安装

多核DSP的快速入门,CCSv5的学习,DSP教程

2016-04-25 22:40:10 15908 1

原创 基于强化学习预算约束出价:Budget Constrained Bidding by Model-free ReinforcementLearning in Display Advertising

基于强化学习预算约束出价问题的主要挑战在于如何精细地调整出价系数,以在满足客户预算约束的前提下最大化目标价值。传统的做法是通过线性规划求解预算约束出价问题,本文介绍一种基于强化学习的预算约束出价策略。该策略采用model-free Online DQN方式,通过一个拍卖系统仿真平台进行决策网络的训练和动作探索。

2023-12-01 22:38:06 1465

原创 AlphaFold的原理及解读

AlphaFold是一种基于深度学习技术的蛋白质结构预测模型。其原理是通过输入蛋白质一级结构,解析二级结构及三级结构。AlphaFold的特征输入包括单氨基酸序列、氨基酸序列标号、同类MSA特征、非同类MSA特征、氨基酸序列交互特征等。模型输出包括氨基酸在三维空间的旋转方向关系和氨基酸之间的空间位置关系。AlphaFold的模型结构分为Encoder模块和Decode模块,其中Encoder模块和IPA等模块

2023-11-28 13:14:11 5391

原创 Alphago Zero的原理及实现:Mastering the game of Go without human knowledge

本文介绍了Alphago Zero的原理及实现方法,它完全依赖自我对弈的强化学习,无需人类专家的动作监督。它通过采用MCTS策略,从大量的动作空间中搜索当前最优的动作序列,然后让模型根据这些最优动作序列进行训练。文章还介绍了Alphago Zero的训练过程,包括self-play阶段、训练网络阶段和网络评估阶段。此外,还介绍了特征组织形式,包括状态和动作的维度。

2023-11-08 21:02:22 878

原创 强化学习DDPG:Deep Deterministic Policy Gradient解读

DDPG是基于Q-learning的,其由于是取最大可能性的某个确定动作,因此可能会带来Maxinum偏差(简单理解为由于预估分布的存在,所以最大值一般都会偏移期望值),这个问题可能通过double Q-learning进行解决。Twin Delayed DDPG又被称为TD3算法..由于DDPG只能产出确定性动作,因此Soft Actor Critic (SAC) 实现产出概率性动作决策stochastic policy,SAC算法相比于TD3主要有两点不同。

2023-06-16 22:26:21 1450

原创 强化学习PPO:Proximal Policy Optimization Algorithms解读

PPO算法是一类Policy Gradient强化学习方法,通过一个参数化决策模型来根据状态确定动作,其参数更新是通过下式进行的:用于衡量决策模型的优劣目标,决策模型的优化目标为寻找最优决策,使得该决策下整体价值最大。因为最优决策是未知的,一种简单思路是直接当前参数模型进行寻优。称为Vanilla Policy Gradient。TRPO:Trust Region Policy Optimization

2023-06-15 12:41:00 918

原创 强化学习笔记-13 Policy Gradient Methods

强化学习算法主要在于学习最优的决策,到目前为止,我们所讨论的决策选择都是通过价值预估函数来间接选择的。本节讨论的是通过一个参数化决策模型来直接根据状态选择动作,而不是根据价值预估函数来间接选择。我们可以定义如下Policy Gradient更新策略,来求解参数化决策模型的参数,其中表示用于衡量决策模型优劣的损失函数。

2023-06-14 19:25:17 712

原创 强化学习笔记-12 Eligibility Traces

前篇讨论了TD算法将MC同Bootstrap相结合,拥有很好的特性。本节所介绍的Eligibility Traces,其思想是多个TD(n)所计算预估累积收益按权重进行加权平均,从而得到更好的累积收益预估值。

2023-06-14 17:17:35 687

原创 强化学习笔记-11 Off-policy Methods with Approximation

前几章我们讨论了off-policy方式,其同on-policy方式最大的不同之处在于其在训练所采取的动作,是根据behavior policy进行决策的,而不是根据target policy。这种方式的好处在于兼顾了exploitation and exploration。本节将讨论如何通过模型近似的方式来应用off policy强化学习。

2023-06-13 21:00:31 462

原创 强化学习笔记-0910 On-policy Method with Approximation

前几章我们所讨论的强化学习方法都是将价值函数建模为一个table形式,通过状态来查询具体状态的价值。但是当状态-动作空间极大,且多数状态-动作并没有太大意义时,这种table查询效率是极低的。因此本节是将价值函数建模为一个参数模型,其中是该价值预估模型的参数,而状态是价值预估模型的输出,通过模型来输出该状态的价值预估。On-policy Method with Approximation

2023-06-13 17:43:50 511

原创 谈谈互联网广告拍卖机制的发展:从GSP到DeepAuction

谈谈互联网广告拍卖机制的发展:从GSP到DeepAuction,VCG拍卖,3.Myerson拍卖,智能出价(其在不同公司可能会被称为自动出价、oCPC、eCPA、CPA、ROI等等),DeepGSP,Neural Auction。

2023-06-05 16:02:49 2457

原创 强化学习笔记-08 Planning and Learning

前几篇我们介绍了一个重点概念model-base和model-free,其中model-base是建立在存在某个环境模型,从模型中可以获得状态、动作、奖励的转移信息,比如动态规划方法,当我们确定了状态动作的转换概率,此时我们可以通过递归的方式,迅速获得价值函数的估计。

2023-06-02 21:27:34 527

原创 强化学习笔记-07 n-step Bootstrapping 多步TD时分学习

上一节介绍了TD算法,其采用了Bootstrapping方法,当前过去的预估以及即期收益来更新累积收益函数:前文我们提到,通过Bootstrapping TD算法,相比于,可以加快学习速度,但另一方面在更新累积收益函数时会存在可能偏差。而n-step TD算法就是两种算法的中间结合,其在经过n步的。

2023-06-01 18:16:03 828

原创 GPT1解读:Improving Language Understanding by Generative Pre-Training

自然语言处理NLP是当代人工智能的关键领域,包含文本识别、智能问答等多个方向任务,通过监督学习方式一般需要大量带标签数据,而对某些特定任务,获取带标签数据成本非常高。GPT通过大量的未标记文本数据来学习一个通用预训练(generative pre-training)的语言模型,并通过语言模型可以学习到内在语义信息,之后针对特定任务只需要用少量的标签数据进行fine-tuning,而不需要对模型结构进行较大改变。

2023-05-19 22:54:35 818 1

原创 强化学习笔记-06 Temporal-Difference TD时分学习

Temporal-Difference TD时分学习,Q-learning,Double Q-learning,Sarsa,Maximization Bias

2023-05-17 14:59:50 355

原创 强化学习笔记-05 蒙特卡罗方法Monte Carlo Method

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。蒙特卡罗方法,weighted importance sampling,off-policy蒙特卡罗方法,

2023-05-16 20:08:52 628

原创 Adam优化器及其变种的原理

本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景,AdamWR,AdamW,SGD withMomentum,Fixing Weight Decay Regularization in Adam

2023-05-11 16:07:52 4697

原创 优化问题的拉格朗日Lagrange对偶法原理

上述优化问题的拉格朗日Lagrange对偶法求解,是将上述带约束的目标优化问题改写为如下无约束的Lagrange函数式子。上述Lagrange函数式子存在如下对偶函数,其是Lagrange函数关于取最小值,即:对偶函数是关于的函数,很显然其是原来Lagrange函数式子的下界,假设优化问题存在最优解,当时,此时存在最优目标小于对偶函数。Lagrange对偶法即是通过最大化原问题Lagrange对偶函数,从而逼近原问题的下界来求解原问题最优解,因为。

2023-05-02 23:25:46 3957 6

原创 Transformer的原理及应用分析

上一篇博文重点介绍了Transformer的核心组件,本篇继续介绍transformer的原理。下图为transformer的结构图,其主要由位置编码、多组编码器和多组解码器。以下将重点介绍三个部分。

2023-04-19 17:43:39 767

原创 MultiHeadAttention多头注意力机制的原理

MultiHeadAttention多头注意力作为Transformer的核心组件,其主要由多组自注意力组合构成,Attention Is All You Need,self-attention。

2023-04-17 18:08:02 23551

原创 seq2seq模型原理及实现

解码器也是由双层的GRU循环神经网络作为主要组成部分,不过其除了输入还有一个embeding模块外,在输出还有一个线性模块将词向量还原one-hot形式,其结构如下图所示,其中初始情况下,解码器的隐层向量设置为编码器最终的输出隐层向量,解码器的输入为编码器的输出向量同上轮解码器的预估输出cocat形成的向量。另一个重要问题是seq2seq模型的损失函数。seq2seq顾名思义是指由序列生成序列,广泛用于机器翻译领域,其结构是由RNN组成一组编码器和一组解码器。

2023-03-27 20:27:47 729

原创 word2vec的原理以及实现

word2vec是早期NLP的必要预处理过程,其用于生成词的向量表示(embeding)。其将单词映射为固定长度的向量(embeding向量),GloVe主要在原来loss函数中引入了两点特性。

2023-03-27 18:37:14 1306

原创 强化学习笔记-04 动态规划Dynamic Programming

Reinforcement Learning- An introduction,Dynamic Programming,,Gambler’s Problem,ValueIteration,Generalized Policy Iteration,强化学习,动态规划

2023-03-18 23:49:56 498

原创 常见损失函数Loss Function的选择(regression problem)

回归损失函数Loss Function,regression problem,A General and Adaptive Robust Loss Function,huber loss,MSE,MAE,Quantile loss,Log-cosh loss,𝜖-insensitive

2023-02-28 12:42:08 1754

原创 常见激活函数Activation Function的选择

激活函数、ReLU、PReLU、Maxout、Swish、sigmoid、tanh、Tanhshrink、softshrink、hardshrink、ELU、Leaky ReLU、softsign、softplus、机器学习

2023-02-24 12:39:50 2100

原创 Batch Normalization原理介绍

Batch Normalization(BN)主要用于解决Internal Covariate Shift。由于训练过程中,网络各层数据x分布会发生变化(偏移),这个偏移可能是受不同batch间(或者训练集和测试集)的数据本身分布不同,或者是在训练过程,由于梯度回传,导致不同batch间各层数据分布前后不一致。

2023-02-22 21:14:32 680

原创 强化学习笔记-03有限马尔可夫决策过程MDP

强化学习,Reinforcement Learning- An introduction,有限马尔可夫决策过程MDP,Bellman equation,Markov Decision Processes

2023-02-13 17:06:28 490

原创 动态规划Dynamic Programming的基础解法

动态规划、递归、python、算法、Algorithms、Dynamic Programming、recursion

2023-02-01 12:05:17 419

原创 带约束进化算法问题分析Constrained Evolutionary Algorithms

带约束进化算法问题,Constrained Evolutionary Algorithms,进化学习,Evolutionary Algorithms for Constrained Parameter Optimization Problems,惩罚函数penalty functions

2023-01-31 12:04:13 642

原创 强化学习笔记-02多臂老虎机问题

Reinforcement Learning- An introduction的阅读笔记,强化学习,多臂老虎机,Thompson sampling,Gradient algorithms,UCB(Upper-Confidence-Bound),ε-greedy

2023-01-29 19:02:29 1184

原创 强化学习笔记-01强化学习介绍

Reinforcement Learning- An introduction阅读笔记,强化学习介绍,机器学习,进化学习。

2023-01-28 20:00:06 438

原创 因果诊断原理

因果诊断,因果分析,DML,前门路径,后门路径,backdoor,frootdoor,Double Machine Learning,do算子,causal machine learning,CATE,ATE,混杂因子

2023-01-23 21:19:35 1852

原创 自动出价的机制稳定性设计:Robust Auction Design in the Auto-bidding World

机制设计、拍卖理论,自动出价的机制稳定性设计:Robust Auction Design in the Auto-bidding World,Towards Efficient Auctions in an Auto-bidding World

2023-01-20 19:53:50 2481

原创 Weighted Logistic Regression和Youtube时长预估

解读youtube的经典论文《Deep Neural Networks for YouTube Recommendations》中通过weighted LR来实现时长预估的原理。

2022-12-27 15:35:03 2918

原创 强化学习从PG到PPO(基于百度飞桨PaddlePaddle+PARL)

前段时间抽空学习了《百度强化学习基础课程》强化学习7日打卡营-世界冠军带你从零实践,总共七天的视频+线上作业(视频地址:世界冠军带你从零实践强化学习),让我这个小白基本对于强化学习有了简单的理解,知识虽然是灌进脑袋里,但仍是一团浆糊,本篇文章整理了自己的对于课程的理解,以及自己的发散和思考,从最简单的PG算法,到现在流行的PPO算法。PG算法原理PG算法即是基于策略(Policy-based),不同于Value-based的算法的Q函数,其是直接优化策略函函数,在深度强化学习中,其一般是采用神经网络

2020-07-24 11:59:12 1476

原创 【用Python学习Caffe】8. 网络结构的权重共享量化

8. 网络结构的权重共享量化网络权重共享量化也是一类重要的网络压缩方法,其本质在于先通过聚类方法得到该层权重的聚类中心,然后通过聚类中心值来表示原权重值。因此权重值并不是由32位的浮点数来表示,而是由其对应的聚类中心的序号表示,如果聚类级别为8位,此时权重值只需要用8位就能表示。对于网络权重量化也有三个问题:量化级别的确定,同修剪率一样,可以通过试错的试验的方法来确定量化后网络重新训练问题量化

2017-06-22 22:28:01 5812 5

原创 【用Python学习Caffe】7. 网络结构的修剪

7. 网络结构的修剪网络结构的压缩是近年来研究热点,接下来的两节,我们将介绍Deep Compression的两个策略网络修剪和网络权重共享量化的实现方法,我们通过mnist的LeNet5作为例子,而其他网络的实现也是类似的。关于Deep Compression的原理,可以参见其论文:Han S, Mao H, Dally W J. Deep compression: Compressing dee

2017-06-22 22:23:06 7346 8

ScSPM Matlab原代码

ScSPM Matlab原代码

2016-03-08

SURF Speeded Up Robust Features

SURF算法的经典原文,SURF (Speeded Up Robust Features)也是一种类似于SIFT的兴趣点检测及描述子算法。其通过Hessian矩阵的行列式来确定兴趣点位置,再根据兴趣点邻域点的Haar小波响应来确定描述子,其描述子大小只有64维(也可以扩展到128维,效果更好),是一种非常优秀的兴趣点检测算法。我的博客里面有SURF的算法详解,欢迎相互交流>_<

2015-10-28

ADNN自适应阈值及动态ROS的角点检测方法原文

Curvature Scale Space Corner Detector with Adaptive Threshold and Dynamic Region of Support (2004) 我的博客里面有关于这些方法的文章,欢迎相互交流。

2015-10-27

CPDA角点检测方法

Robust Image Corner Detection Based on the Chord-to-Point Distance Accumulation Technique 我的博客里面有关于这些方法的文章,欢迎相互交流。

2015-10-27

Boundary-based corner detection using eigenvalues of covariance matrices

介绍了基于曲线曲度的角点检测,里面重点介绍通过边缘协方差矩阵来进行曲度计算方法。我的博客里面有关于这些方法的文章,欢迎相互交流。

2015-10-27

Corner detection and curve representation using cubic B-spline

介绍了一种关于样条曲线参数估计的角点检测,里面重点介绍一些B样条曲线的曲度计算方法。我的博客里面有关于这些方法的文章,欢迎相互交流。

2015-10-27

A Simple and Efficient Algorithm for Detection

介绍了早期的基于曲线曲度的角点检测,里面重点介绍一些曲线的曲度计算方法。我的博客里面有关于这些方法的文章,欢迎相互交流。

2015-10-27

Faster and Better A Machine Learning Approach to Corner Detection.pdf

FAST算法原作者在2010年提出的改进算法FAST-ER,提高角点检测的重复率。这里是英文原文。我的博客里有FAST-ER的详解,欢迎相互交流>_<

2015-10-22

Machine Learning for High-Speed Corner Detection.pdf

FAST角点检测的最初始的英文原文,Edward Rosten 和 Tom Drummond 在2006年发表。我的博客里有详细的介绍这个算法,欢迎相互交流>_< http://blog.csdn.net/tostq

2015-10-21

Corner Detection via Topographic Analysis of Vector Potential.pdf

一种基于磁矢量势的角点检测方法,这是其英文原文。

2015-10-21

On Corner and Vertex Detection.pdf

这是一种早期的角点检测方法——DET角点检测方法经典原文。

2015-10-21

SUSAN—A New Approach to Low Level Image Processing.pdf

SUSAN角点及边缘检测方法经典英文原文,是一种通过模板来检测的方法,里面还提到了SUSAN噪声滤除的方法。我的博客里面http://blog.csdn.net/tostq里面有详细的解释,欢迎相互交流>_<

2015-10-21

Good Features to Track.pdf

Shi-Tomasi特征点(角点)检测及追踪方法的经典英文原文,这个方法也是KLT方法的一种改进。如果需要大概了解这个文章内容,可以参考本人的博客,欢迎相互交流>_<

2015-10-16

Detection and Tracking of Point Features

KLT光流法经典英文原文,里面重点介绍了如何选择跟踪的特征点,如果需要大概了解其原理,可以参考本人的博客,欢迎相互交流

2015-10-15

A Connectionist Model for Corner Detection in Binary and Gray Images

一种类神经网络模型Connectionist Model的角点检测方法,非常有意思,里面的方法融合多尺度及人工神经网络的思想,如果想大概了解下其内容,可以参考我的博客。

2015-10-13

Scale-Space for Discrete Signals.pdf

多尺度空间的经典英文原文,里面介绍了在离散信号情况下,什么样的滤波核能用于尺度变换。

2015-10-12

Distictive Image Features From Scale-Invariant Keypoints.pdf

Sift算法最经典的奠基论文,里面详细的讲解如何检测尺度不变性的特征点。

2015-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除