![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP复习
荒山之夜
这个作者很懒,什么都没留下…
展开
-
TF-IDF
tf-idf 是一个NLP任务中常用的工具。其主要思想是,在一个语料库中的一篇文章里的某一个词。它越是在语料库出现的次数少而在该文章中出现的次数多,我们就可以认为这个词对于文章来说,很重要。那么TF代表的意思是“词频”:某个词在文章中出现次数/文章总词数同样IDF代表的意思是“逆文档频率”:IDF = log(语料库的文档总数/包含该词的文档总数+1)一般TF-IDF越大,则代表这个词越...原创 2019-06-21 16:47:17 · 184 阅读 · 0 评论 -
我对卡尔曼滤波的一点点理解
我对卡尔曼滤波的一点点理解卡尔曼滤波是一种应用比较广泛的滤波器,它能做到的效果是:根据前一步的状态,预测出这一步的状态。整个过程,只会依赖于前一步的状态量,状态转移方程,以及每一步的观测值。由于,状态量只依赖于前一步的状态量,所以其内存消耗会比较小。卡兹曼滤波器善于处理环境中有未知变量的情况,也能在有噪声信息干扰的环境下进行工作。卡兹曼滤波器最经典的用例是,它在阿波罗飞船的登陆过程中进行...原创 2019-07-03 17:29:42 · 285 阅读 · 0 评论 -
batch_normal机制初窥
大家都做过对图片信息的处理。在这个过程中,我们会发现,由于图像的像素是0-255之间。这就说明,在整个过程中,我们发现其值永远在第一象限中。假设我们想用方程max(wx + b)来进行分类。那整个过程中,训练的目的,就是训练w和b。W的初始化,一般是从高斯分布中进行随机初始化的。有正有负。这个时候用这个分类器对像素进行分类,发现图像的所有点,都集中在第一象限中。那么在整个过程中,我...原创 2019-06-25 00:13:25 · 885 阅读 · 0 评论 -
Latex的使用经验集合
在csdn中的markdown里写公式,用公式公式公式符号在公式上面加帽子 y^\hat yy^类和符号∑\sum∑类和符号一般为∑nn=1\sum^{n=1}_n∑nn=1,但这种展示方式不漂亮,所以需要漂亮的展示方式,那就是∑i=1n\displaystyle \sum^{n}_{i=1}i=1∑n暂时没有其他的了。...原创 2019-06-24 23:51:34 · 105 阅读 · 0 评论 -
git的stash
git有一个功能模块叫做stash。stash的意思是储藏。解决方案是:在git写代码的过程中,如果觉得当前的分支还不值得提交,可以先对结果进行stash,然后再到其他分支去处理,最后再转回来。...原创 2019-06-27 17:16:55 · 271 阅读 · 0 评论 -
2.3.1 卡尔曼滤波
先问是什么,然后再问为什么?在我的印象中,递归滤波器和卡尔曼滤波器,其主要核心是两个过程。预测更新可以理解为,首先对原始数据的建模,用原始数剧进行预测而后,利用新的一步,对原始数据进行建模。这是整个流程。那么什么是卡兹曼滤波呢?卡兹曼滤波有什么优势?1.卡兹曼滤可以对系统下一步要做什么做出有根据的推测。他能找出现象间不易察觉的相关性。2.卡兹曼波只依赖于前面的状态,所以内...原创 2019-06-26 16:11:34 · 290 阅读 · 0 评论 -
从softmax到交叉熵再到softmax的反向梯度求解
交叉熵的来龙去脉这个链接是一个很好的交叉熵的使用的连接,建议阅读前,先学习这一篇中的内容。https://blog.csdn.net/tsyccnh/article/details/79163834首先,我们要明了一下,什么是信息量,信息量一般用什么表示?−log(p(xi))-log(p(x_i))−log(p(xi))其过程是将log进行了一个倒置。当p(xi)p(x_i)p(x...原创 2019-06-23 14:10:10 · 318 阅读 · 0 评论 -
互信息的定义--未完整版
互信息是什么?他的定义是I(x,y)=logp(x,y)p(x)p(y)I(x,y)=log\frac{p(x,y)}{p(x)p(y)}I(x,y)=logp(x)p(y)p(x,y)其中p(x)代表x,单独出现的频率。I(x,y)越大,则x,y的关联程度越强。接近于0,则关联程度越弱。小于0,则表示两者不存在关联。至于互信息为什么可以表现出这种情况,还是一个等待探索的过程。...原创 2019-06-22 12:54:27 · 907 阅读 · 0 评论 -
EM算法总结与理解
EM算法:我们要调查学校的男生和女生的身高分布。我们抽取了100个男生和100个女生,共200个人。我们只知道,200个人的身高,甚至不知道它们是男的还是女的。我们现在想要做的事儿是什么呢?1.是希望求出每一个样本属于哪个分布?(也就是说,这个数据到底是属于男人呢,还是属于女人呢?)2. 是希望求出男女分布的两个具体分布。这个问题的难点就在于要求出男女的分布。如果只是求具体分布,...原创 2019-06-25 16:35:51 · 228 阅读 · 0 评论 -
极大似然估计的定义和流程
在这一篇文章中,我们来回答两个问题。极大似然估计是做什么的?极大似然做的流程是怎么样的?极大似然估计是做什么的?(记得,极大似然估计和朴素贝叶斯是不同的在我们的日常生活中,我们可能会采样到一个数据集。这个数据集有自己的分布,p(y∣x1,x2,x3,θ)p(y|x_1,x_2,x_3,\theta)p(y∣x1,x2,x3,θ)举一个最简单的例子:从一个学校中的男生中挑出...原创 2019-06-25 15:49:36 · 1134 阅读 · 0 评论 -
如何理解chainer库中的n_step_lstm
这是一个很普通的多层LSTM网络,大家可以参考这个网络。1. hx是S,B,N,这是batch的size,N是纬度层,最后S是序列的长度2. cx 在cell 的state3. bs,4. xs 的形式是(B_t, I) 在 xs,还要满足每个batch中,越前面的batch越要长,越后面的越要短。简称,这是一个普通的LSTM,需要将参数的矩阵输入其中...原创 2019-06-30 13:18:47 · 328 阅读 · 0 评论