![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 83
qjf42
这个作者很懒,什么都没留下…
展开
-
GBDT相关理解
从Gradient Descent(梯度下降) 到Gradient Boosting(梯度提升)首先说明,中文看起来是反义,但实际上是两个东西,和Gradient Descent类似的那个叫Gradient Ascent(梯度上升)梯度下降和牛顿法优化中有两种常见的方法,梯度下降(GD)和牛顿法,可以分别认为是目标函数基于泰勒展开的一阶和二阶版本,简单说一下:目标: argmin...原创 2018-08-28 21:54:59 · 481 阅读 · 0 评论 -
特征哈希(Feature Hashing)
基于词表的特征向量化分类问题中,一种常见的方法是构造一个特征词典,如文本分类,会给每个词(可能还有ngram,词性等)设置一个feature_id(向量化(vectorize)),并记录在一个词典({feature: feature_id})里,从而抽取特征权重的过程通常是这样的:text => feature => feature_id => feature_value ...原创 2018-09-04 21:25:56 · 6495 阅读 · 0 评论 -
特征归一化/标准化
what特征归一化/标准化(feature scaling/standardization/normalization)是一种把特征变量映射到某个区间的数据前处理方法因为不同特征的取值范围,单位、量纲各不相同(如,身高可用m或cm),对某些模型来说,可能对结果有影响这些词是一类操作,可能稍有不同,这里先不做区分how基本方法常见的就两种方法(本质上都是压缩平移):...原创 2018-09-04 21:26:41 · 712 阅读 · 0 评论 -
关于RNN的一个问题
问题的引入某次实验,一个比较简单的二分类问题,网络结构:两层bilstm+bigru,hidden state拼接后加一个attention,再加两层全连接做分类;本以为attention能work,找出序列中对分类最有用的元素/片段,但实际情况是,所有的attention score都差不多(≈1len\approx \frac{1}{len}≈len1,除了前几个可能稍有不同);att...原创 2019-09-10 15:33:03 · 509 阅读 · 0 评论