Study memo

Deep learning algorithm and code

已知校验矩阵(监督矩阵)或生成矩阵G怎样生成所有可能码字

最近几天重新复习了有关信息编码的知识,首先跟大家推荐两本书吧。 《数字通信原理与技术》(北京邮电出版社的) 《ldpc原理与应用》 首先先搞清几个概念。 1.什么是分组码? 每个码组的监督码元仅与该码组的信息码元有关,而与其他码组的信息码元无关,这类码称为分组码。在分组码中,监督码元仅监...

2019-03-22 17:35:29

阅读数 95

评论数 1

GANSYNTH(基于对抗性神经网络的音频合成)

本文基于文章《Adversarial neural audio synthesis》 读了论文,看了源代码,还是有很多地方对不上,不理解(因为代码部分还是比较难的,音频音乐部分也涉及到很多信号处理方面的知识)。理解的我就补充进来。 这是谷歌团队的megenta项目,首先先了解对抗神经网络(Ga...

2019-03-22 09:12:59

阅读数 328

评论数 4

统计语言模型与NLP算法设计

什么是语言模型呢? 简单的说,统计语言模型是用来计算句子中某种语言模式出现概率的统计模型。一般自然语言的统计单位是句子,所以也可以看做句子的概率模型。假设W=(w1,w2,....,wn)为一个句子,这个句子有n个词,也就是n个词汇按顺序构成的字符序列,这里表示为W1n,利用贝叶斯公式进行链式分...

2018-08-17 17:10:18

阅读数 743

评论数 0

TF-IDF(附代码)

词频(Term Frequency,TF)是指某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化,以防止它偏向长的文件。对于在某一特定文件中的词语来说,它的重要性可以表示为:                          TF=(该词在文件中的出现次数)/...

2018-07-20 15:40:58

阅读数 734

评论数 0

word2vec的应用:gensim相似度检测(附代码)

  上篇写的word2vec的相关算法,这篇附上代码。其中我们的语料是小说“人民的名义”,百度云盘:https://pan.baidu.com/s/1ggA4QwN 首先是进行分词: #-*-coding:utf-8 -*- import jieba.analyse import jieb...

2018-07-20 14:29:23

阅读数 2446

评论数 1

自然语言处理word2vec

首先,先让我们看一下gensim和word2vec的关系吧 gensim库三大功能: 可扩展的统计语义 分析语义结构的纯文本 检索语义上类似的文档 word2vec是gensim的一个子模块,可以用来实现上面三大功能。而CBOW模型和 Skip-Gram模型是word2vec的两个模型。 ...

2018-07-20 14:12:05

阅读数 231

评论数 0

机器学习中的贝叶斯与朴素贝叶斯

贝叶斯是用来描述两个条件概率直接的关系。我知道:由上式进一步推导得:由此,推广到随机变量的范畴,设X,Y为两个随机变量,得到贝叶斯公式:其中,P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)是联合概率。在机器学习的视角下,我们把X理解成“具有某种特征”,把Y理解为“类别标签”,贝叶斯方...

2018-07-16 13:28:21

阅读数 112

评论数 0

基于循环神经网络(RNN)的神经语言模型

这篇主要介绍神经语言模型的结构。与RNN相比,NLP应用中主要多了两个层:词向量层(embedding)和softmax层。下面对这两个层分别进行介绍。一.词向量层(embedding)  在神经网络的输入层,每一个单词用一个实数向量来表示,这个向量被成为“词向量”(Word embedding,...

2018-07-06 13:51:23

阅读数 1656

评论数 1

经典损失函数:交叉熵(附tensorflow)

每次都是看了就忘,看了就忘,从今天开始,细节开始,推一遍交叉熵。 我的第一篇CSDN,献给你们(有错欢迎指出啊)。 一.什么是交叉熵 交叉熵是一个信息论中的概念,它原来是用来估算平均编码长度的。给定两个概率分布p和q,通过q来表示p的交叉熵为:      注意,交叉熵刻画的是两个概率分...

2018-07-03 16:09:56

阅读数 23215

评论数 10

提示
确定要删除当前文章?
取消 删除
关闭
关闭