机器学习算法
Uncle_Sugar
数学系伪程序员
展开
-
SARSA 和 Q-learning 的区别
下面这张图截取自书上的,SARSA算法是在线算法,Q-learn是离线算法。两者的第一步选择动作都是epsilon-greedy,而第二部更新Q函数的时候,Q-learning 直接选择用最优的动作a去更新Q函数,而SARSA选择用之前的策略采样出来的A‘去更新Q函数。这就是为什么叫SARSA在线算法,因为更新策略用的A’和上一步的A都是由一个policy 产生的。而Q-learning中...原创 2020-04-10 23:32:26 · 2978 阅读 · 4 评论 -
LightGBM Exclusive Feature Bundling
互斥特征合并(Exclusive Feature Bundling)高维的数据通常是稀疏的,这种特征空间的稀疏性给我们提供了一种设计一种接近无损地降维的可能性。特别的,在稀疏特征空间中,许多特征是互斥的,换句话说,大部分特征不会同时取非0值,例如One-hot之后的类别特征他们从不同时为非0值。我们可以合并互斥的特征为单一特征(我们将这个过程称为Exclusive Feature Bundle...原创 2020-04-08 23:44:26 · 1013 阅读 · 0 评论