qjf42
码龄16年
关注
提问 私信
  • 博客:41,591
    社区:330
    41,921
    总访问量
  • 12
    原创
  • 1,059,553
    排名
  • 33
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2008-08-22
博客简介:

qjf42的专栏

博客描述:
这个人很懒,什么都没留下
查看详细资料
个人成就
  • 获得19次点赞
  • 内容获得4次评论
  • 获得86次收藏
创作历程
  • 1篇
    2019年
  • 11篇
    2018年
成就勋章
TA的专栏
  • 强化学习
    5篇
  • NLP
    2篇
  • 机器学习
    4篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

关于RNN的一个问题

问题的引入某次实验,一个比较简单的二分类问题,网络结构:两层bilstm+bigru,hidden state拼接后加一个attention,再加两层全连接做分类;本以为attention能work,找出序列中对分类最有用的元素/片段,但实际情况是,所有的attention score都差不多(≈1len\approx \frac{1}{len}≈len1​,除了前几个可能稍有不同);att...
原创
发布博客 2019.09.10 ·
543 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

特征归一化/标准化

what特征归一化/标准化(feature scaling/standardization/normalization)是一种把特征变量映射到某个区间的数据前处理方法因为不同特征的取值范围,单位、量纲各不相同(如,身高可用m或cm),对某些模型来说,可能对结果有影响这些词是一类操作,可能稍有不同,这里先不做区分how基本方法常见的就两种方法(本质上都是压缩平移):...
原创
发布博客 2018.09.04 ·
766 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

特征哈希(Feature Hashing)

基于词表的特征向量化分类问题中,一种常见的方法是构造一个特征词典,如文本分类,会给每个词(可能还有ngram,词性等)设置一个feature_id(向量化(vectorize)),并记录在一个词典({feature: feature_id})里,从而抽取特征权重的过程通常是这样的:text => feature => feature_id => feature_value ...
原创
发布博客 2018.09.04 ·
6617 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

GBDT相关理解

从Gradient Descent(梯度下降) 到Gradient Boosting(梯度提升)首先说明,中文看起来是反义,但实际上是两个东西,和Gradient Descent类似的那个叫Gradient Ascent(梯度上升)梯度下降和牛顿法优化中有两种常见的方法,梯度下降(GD)和牛顿法,可以分别认为是目标函数基于泰勒展开的一阶和二阶版本,简单说一下:目标: argmin...
原创
发布博客 2018.08.28 ·
510 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《Reinforcement Learning》 读书笔记 6:时序差分学习(TD-Learning)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录先来看一个例子 每天上班的路程,都是可以看作是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。每天我们依赖之前的经验,估计当天的时长,并更新我们的经验。 那么如何做出更好的估计呢?如何更快地积累有效的经验? 尤其是在一个没有...
原创
发布博客 2018.04.29 ·
9279 阅读 ·
4 点赞 ·
0 评论 ·
18 收藏

N-gram语言模型 & Perplexity & 平滑

一、N-gram语言模型二、Perplexity(困惑度)三、平滑方法问题常用方法Laplace平滑 (add-one, add-α)Good-Turing SmoothingBackoff (Katz) Interpolation(Jelinek-Mercer)Recursive InterpolationAbsolute DiscountingWitten-Be...
原创
发布博客 2018.04.03 ·
7240 阅读 ·
5 点赞 ·
3 评论 ·
33 收藏

关于词向量的一些理解

数学上如何解释?有很多种解释,其中一种是相对简单的:《Neural Word Embedding as Implicit Matrix Factorization》文中对skipgram (negative sampling) 的损失函数进行了重新整理后发现,实际上, w→⋅c→=log(#(w,c)⋅|D|#(w)⋅#(c)⋅1k)=log(#(w,c)⋅|D|#(w)⋅#(c))−...
原创
发布博客 2018.03.24 ·
2047 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

《Reinforcement Learning: An Introduction》 读书笔记 - 目录

这一系列笔记是基于Richard S. Sutton的《Reinforcement Learning: An Introduction》第二版 因为这本书在出版之前,作者就在官网上发布了几次草稿版,不同时间发布的版本之间的排版有所差异(尤其是2017年和2018年的之间) 本系列基于2018年的几个版本,所以如果文中部分内容所指明的地方和读者看到的不一致,敬请谅解~第2...
原创
发布博客 2018.03.22 ·
4948 阅读 ·
3 点赞 ·
0 评论 ·
18 收藏

《Reinforcement Learning》 读书笔记 5:蒙特卡洛(Monte Carlo Methods)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录问题前面两章都假设我们已知MDP的分布p(s′,r|s,a)p(s′,r|s,a)p(s', r | s, a)(model),但有时这一点难以做到(第2章的多臂老虎机问题是一个特殊的例子),或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识PS:...
原创
发布博客 2018.03.22 ·
1156 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

《Reinforcement Learning》 读书笔记 4:动态规划(Dynamic Programing)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录为了求解价值函数,或更一步得到最优策略,可以解Bellman方程组,但是当状态集太大时,求解的复杂度太高,所以这一章主要介绍了一些迭代的方式来逼近精确解,在不损失精度的情况下,大幅减少复杂度(对state-value function来说,一般是O(|S|k)O(|S|k)O(|\mathca...
原创
发布博客 2018.03.22 ·
1476 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

《Reinforcement Learning》 读书笔记 3:有限马尔科夫决策过程(Finite MDP)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录Agent-Environment Interfaceagent learner and decision makerenvironment 与agent交互,包括所有agent之外的东西environment’s state St∈SSt∈SS_t \in \mathcal...
原创
发布博客 2018.03.22 ·
1189 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

《Reinforcement Learning》 读书笔记 2:多臂老虎机(Multi-armed Bandits)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录Reinforcement Learning 和 Supervised Learning 的区别 evaluate vs instruct也就是说,RL的对于每一个action的效果不是非黑即白的,而是在每一次的action之后都可能不一样的后果(feedback, rewar...
原创
发布博客 2018.03.22 ·
5820 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏