- 博客(14)
- 收藏
- 关注
原创 L2R读书笔记 - pointwise
L2R的基本框架虽然搜索历经了30多年,但是基本的框架还是没有改动的。通常来说,一个训练集是由N个query组成的,每个query又有自己相关的一系列documents。point wise方法point wise方法,顾名思义,即仅仅考虑了每个query中每个document的与query相关得分和最后的label之间的关系。书中把point wise的方法一共做了3类的区分,基于回归...
2019-05-12 13:58:48 685
原创 LSTM沉淀
年纪大了,不把东西写下来,就会忘掉。深度学习应用到单维度时间序列最近在处理一些时序序列,目前暂时发现单纯的lstm不work,原因目前正在排查中,先积累一波原理。首先在处理时序数据时候,RNN出现一些问题,具体体现在梯度消失 (vanishing gradient problem):接近输出层的hidden layer的权值更新相对比较正常,但是前边的hidden layer权值更新会比较慢,导致
2018-01-14 16:26:33 900
原创 utf-8和utf-8-sig
As UTF-8 is an 8-bit encoding no BOM is required and anyU+FEFF character in the decoded Unicode string (even if it’s the firstcharacter) is treated as a ZERO WIDTH NO-BREAK SPACE.UTF-8以字节为编码单元,它的字
2017-11-07 12:00:26 5775
原创 对于Imbalance Data的总结
在实际项目中,遇到的imbalance的情况有很多,常见的一个情况就是异常检测(Anomaly Detection). 针对常见的办法进行总结。通常来说,遇到imbalance的情况可以用一下的方法:增加新的样本上采样(over sampling)下采样(under sampling)上采样 vs 下采样通俗来说,上采样就是增加imbalance中的样本 下采样就是去把正样本给消减一部分内
2017-11-05 14:22:02 2314
转载 欢迎使用CSDN-markdown编辑器
关于MCMC与Gibbs SamplingMCMC的原理,简单的说就是把一个分布通过采样的办法,选取出来一个符合上一步采样的办法。常用的是gibbs sampling,关于MCMC和Gibbs Sampling的说法,见下边的链接:https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling
2017-11-01 21:11:08 158
原创 tensorflow / keras LSTM训练时候nan情况
当跑tf训练的时候,有时候的loss会成为nan,一般来说,可能性会有 Activation Function: 当activation function为relu的时候,有可能会导致输出比较大,这样在取e的x方的时候,会把整个数字弄的特别大,然后会出nan。相对来说,tanh, sigmoid的值域是在[-1,1] / [0,1]的范围之内。这两个函数不会出现nan的情况。但是相对于si
2017-10-07 13:52:18 7365
原创 word2vec我的理解
对于word2vec,在做文本分类问题时候用到了。其中核心思想就是,把去完噪音和停用词的中文单子,通过中文分词,进入到word2vec进行训练。在这个过程中,一直迷惑的地方有几个,通过某个周末的学习,现在整理如下。1 单词是怎么表示成word embedding的形式的?这个问题被网上很多材料都略过。其实它的原理是这样,首先以cbow为例,用one-hot的方法表示N个
2017-07-30 15:43:47 411
转载 variational autoEncoder介绍
有一个blog,对VAE描述的不错,转载如下。http://blog.csdn.net/jackytintin/article/details/53641885
2017-06-04 13:42:26 1291
转载 CNN介绍
有一篇CNN文章,讲解的特别好。http://blog.csdn.net/yuzhou164/article/details/62043674
2017-05-24 20:30:41 322
原创 JAVA调用R, rJava配置
关于JAVA调用R的沉淀## java调用R 很多时候在做数据挖掘的时候,需要在java中调用R,其中有很多大坑,尝试着逐一解决。环境 macOSjava version JRE 1.8R version R 3.4编译器IntelliJ成功调用的方法:首先通过pip安装homebrew,然后通过brew去安装R。 坑1:如果直接安装R,会有后边rjava path找不到的情况安装
2017-05-24 15:39:15 517
原创 git的沉淀
关于github的一些总结【面对git,总会产生一些困惑,总结一下自己遇到的,沉淀下来】case 1 加了新文件,想与当前分支同步git add -A . # 这个是把新加的文件提交 git commit -av #查看已经改变的内容,进去之后,i进行commit的编辑,然后ESC退出,大写2个Z便可保存状态 git push #推送到线上分支git pull ## 把线上的变更同
2017-05-20 15:30:15 336
原创 欢迎使用CSDN-markdown编辑器
年级大了,总要记录点什么,最近开始上班,觉着每天工作会特别累,并且学了的东西最好总结一下,所以从4月开始,每周或者2周会总结一下,希望能在半年之后,看到这个成长集,会心一笑
2017-04-02 20:05:21 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人