- 博客(6)
- 收藏
- 关注
原创 TF-IDF(附代码)
词频(Term Frequency,TF)是指某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化,以防止它偏向长的文件。对于在某一特定文件中的词语来说,它的重要性可以表示为: TF=(该词在文件中的出现次数)/(在文件中所有字词的出现次数之和) (定义来自百度百科)逆向文件频率(Inverse D...
2018-07-20 15:40:58 3476
原创 word2vec的应用:gensim相似度检测(附代码)
上篇写的word2vec的相关算法,这篇附上代码。其中我们的语料是小说“人民的名义”,百度云盘:https://pan.baidu.com/s/1ggA4QwN首先是进行分词:#-*-coding:utf-8 -*-import jieba.analyseimport jiebajieba.suggest_freq('沙瑞金',True)jieba.suggest_fre...
2018-07-20 14:29:23 8335 2
原创 自然语言处理word2vec
首先,先让我们看一下gensim和word2vec的关系吧gensim库三大功能:可扩展的统计语义 分析语义结构的纯文本 检索语义上类似的文档word2vec是gensim的一个子模块,可以用来实现上面三大功能。而CBOW模型和 Skip-Gram模型是word2vec的两个模型。 Genism:在gensim中,word2vec相关的API都在gensim.models...
2018-07-20 14:12:05 651
原创 机器学习中的贝叶斯与朴素贝叶斯
贝叶斯是用来描述两个条件概率直接的关系。我知道:由上式进一步推导得:由此,推广到随机变量的范畴,设X,Y为两个随机变量,得到贝叶斯公式:其中,P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)是联合概率。在机器学习的视角下,我们把X理解成“具有某种特征”,把Y理解为“类别标签”,贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,属于监...
2018-07-16 13:28:21 2582
原创 基于循环神经网络(RNN)的神经语言模型
这篇主要介绍神经语言模型的结构。与RNN相比,NLP应用中主要多了两个层:词向量层(embedding)和softmax层。下面对这两个层分别进行介绍。一.词向量层(embedding) 在神经网络的输入层,每一个单词用一个实数向量来表示,这个向量被成为“词向量”(Word embedding,也可以翻译成:词嵌入)。词向量可以形象的理解为将词汇表嵌入到一个固定维度的是实数空间里。将单词编号转化...
2018-07-06 13:51:23 4251 2
原创 经典损失函数:交叉熵(附tensorflow)
每次都是看了就忘,看了就忘,从今天开始,细节开始,推一遍交叉熵。我的第一篇CSDN,献给你们(有错欢迎指出啊)。一.什么是交叉熵交叉熵是一个信息论中的概念,它原来是用来估算平均编码长度的。给定两个概率分布p和q,通过q来表示p的交叉熵为: 注意,交叉熵刻画的是两个概率分布之间的距离,或可以说它刻画的是通过概率分布q来表达概率分布p的困难程度,p代表正确答案,q代表的是预...
2018-07-03 16:09:56 79268 32
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人