机器学习
文章平均质量分 79
OhMyJayce
个人Blog: www.tianduai.com
展开
-
一文彻底搞懂LSTM
网络上大部分介绍LSTM的博客都是先给出一张图,然后进行分析。我们今天反其道行之,分析LSTM先不看图。看图反而会吸引你太多的注意力,无法很好的参透其中的奥妙。咱们首先明确一下,LSTM有哪几个部分组成:a) 三个门:输入门、输出门、遗忘门,作用暂且不表,只需要知道门可以控制信息的过滤;b) Cell state:中文翻译为细胞态,感觉并不是很准确,索性就不翻译了。Cell state变量存储的是当前时刻t及其前面所有时刻的混合信息,也就是说,在LSTM中,信息的记忆与维护都是通过cell state原创 2022-05-09 09:18:40 · 2342 阅读 · 0 评论 -
Loss变为NaN怎么办?
在训练网络的时候,当打印出的日志提示loss变为NaN的时候,是不是整个人都开始抓狂了?相信应该每个算法工程师都遇到过这个令人头秃的问题。本文就是介绍如果遇到loss变成NaN时,如何快速的或者多方面排查原因。一、训练数据有问题比如数据集中就有某些特征的某些取值为NaN,或者label缺失。在一个iteration中batch数据如果没问题,loss正常显示;如果不凑巧,batch数据中恰好有NaN或者label缺失,loss就突然变为NaN了。建议这一步作为排查问题时的Step1。二、梯度爆.原创 2021-07-07 22:17:18 · 13596 阅读 · 5 评论 -
带你真正吃透AUC
本文旨在从所有教科书都讲到的AUC基本概念为起点,逐步带领大家进入AUC背后更为广阔、神奇的世界。一、什么是AUC AUC的全称为Area Under the Curve,即曲线下的面积。这里的曲线指的是什么曲线?有两种类型:ROC曲线和PR曲线。所以,AUC也会有两种类型:ROCAUC及PRAUC,分别对应ROC曲线下的面积以及PR曲线的的面积。二、ROC曲线及PR曲线 在二分类问题中,模型输出得分SSS后(这里的得分指的是属于正例的概率值,即经过sigmoid函数归一化到[0,1]内.原创 2021-07-07 01:01:21 · 12166 阅读 · 1 评论 -
RNN参数共享的意义
在Stackoverflow上看到了一个很好的问题:Recurrent NNs: what’s the point of parameter sharing? Doesn’t padding do the trick anyway? 评论区的老哥主要从两个方面回答了这个问题: 1)Parameter sharing 2)Padding 首先,RNN为什么需要有parameter sharing,即参数共享? 最主要的目的是减少模型训练时需原创 2021-05-19 23:39:33 · 1628 阅读 · 1 评论 -
pairwise or pointwise?
本文需要有对pairwise及pointwise的基础概念 搜索排序和推荐虽然属于两个不同的领域,但却有许多共同之处。李航老师的《Deep Learning for Matching in Search and Recommendation》更是将search及recommendation统一归纳到Matching框架中来讲解。 搜索排序,一个典型的场景是淘宝的商品列表页。你需要输入一个搜索词作为query,然后系统返回商品排序列表。搜索排序常用的模型是基于pairwise的。而推荐,典.原创 2021-04-22 22:32:44 · 887 阅读 · 0 评论 -
聊一聊推荐系统中Exploit&Explore算法
Exploit:利用 Explore:探索 推荐系统中,如果片面优化用户的喜好,推荐系统可能会造成信息茧房问题。也就是推荐的东西都是用户喜欢的东西,千篇一律。这时候不仅仅需要Exploit,还需要Explore新内容。另外呢,EE还可以通过Explore信息不足的物品(如很少曝光),提高对其信息的掌握程度(如ctr等)。随着时间的推移,推荐系统对item的信息掌握越来越多,也就可以更好的做出决策。 但是在工业界,EE算法其实是一个很矛盾的东西。上吧,确实可以提高新颖度,但是谁知道是正向影响还原创 2021-02-15 10:35:53 · 1757 阅读 · 0 评论 -
聊一聊机器学习中的频率学派及贝叶斯学派(一)
频率学派与贝叶斯学派的区别在于“概率”这个概念的认识以及应用上。 频率学派认为概率是实验中事件发生频率的极限值。也就是说,经过无数次重复试验,事件发生的频率与该事件发生的概率就相等了。所以,在频率学派眼中,概率是一个确定值。 那么对概率的认识是如何与模型相关联的呢?让我们首先来看抛硬币的例子:假设抛一枚硬币,正面向上的概率为P,抛掷了1000次,正面向上的次数出现了600次。任何一个人都可以很有信心的说:抛掷该硬币,正面朝上的概率为0.6。那么换个角度来看,抛掷硬币这个实验结果原创 2021-01-17 09:27:06 · 734 阅读 · 0 评论 -
用numpy实现LSTM
网上有许多讲解LSTM的资料,完备且详细,在这里就不再赘述了。推荐一个个人认为LSTM讲解比较清晰的网址:Understanding LSTM Networks。学习结束LSTM基本结构之后,想要对LSTM中的各种细节问题有进一步的认识。在tensorflow中,LSTM模块已经被封装好了,所以我就想研究一下如何只用numpy实现一个LSTM网络。很巧合的,我在YoutubeLSTM网络 - 智慧...原创 2019-04-29 09:43:15 · 3353 阅读 · 8 评论 -
tensorflow:name&variable scope
本文转载自:http://blog.csdn.net/u012436149/article/details/53081454name&variable scope水平有限,如有错误,请指正!在tensorflow中,有两个scope, 一个是name_scope一个是variable_scope,这两个scope到底有什么区别呢? 先看第一个程序:with转载 2017-12-02 20:43:43 · 236 阅读 · 0 评论 -
记录一下tf里面函数的细节变动
函数的细节变动原创 2017-11-28 16:08:38 · 2816 阅读 · 3 评论 -
解读Batch Normalization
关于Batch Normalization转载 2017-10-23 21:59:08 · 272 阅读 · 0 评论 -
深度学习中的常见正则化问题
深度学习中正则化的问题原创 2017-10-13 15:28:47 · 2696 阅读 · 0 评论 -
对xgboost学习的一些梳理
最近一直在看机器学习比赛的相关内容,发现在比赛排行榜TOP10中,好多都用到了xgboost。于是拿过来研究了一下,简要梳理一下自己的思路吧。原创 2017-08-22 00:09:29 · 472 阅读 · 0 评论 -
浅谈Logisitic Regression
浅谈关于Logisitic Regression中的基本原理和推导过程原创 2017-06-08 22:09:24 · 781 阅读 · 0 评论