NLP
u012436149
这个作者很懒,什么都没留下…
展开
-
word2vec
word2vec为什么要进行embeddingword2vec就是对word进行embedding首先,我们知道,在机器学习和深度学习中,对word的最简单的表示就是使用one-hot([0,0,1,0,0…..]来表示一个word). 但是用one-hot表示一个word的话,会有一些弊端:从向量中无法看出word之间的关系((wworda)Twwordb=0(w^{word_a})^Tw^{wo原创 2016-11-18 11:03:42 · 1360 阅读 · 0 评论 -
tf-idf weighting
水平有限,如有错误请指正!tf-idf weightingtf(term frequency)a document or zone that mentions a query term more often has more to do with that query and therefore should receive a higher score query term: a set of原创 2016-12-01 13:37:33 · 1682 阅读 · 0 评论 -
tensorflow学习笔记(十一):seq2seq Model相关接口介绍
源码地址调用外部的函数介绍tf.sampled_softmax_loss()tf.sampled_softmax_loss()中调用了_compute_sampled_logits() 关于__compute_sampled_logits()#此函数和nce_loss是差不多的, 取样求lossdef sampled_softmax_loss(weights, #[num...原创 2016-10-31 00:04:11 · 25174 阅读 · 11 评论 -
tensorflow 0.10 word2vec 源码解析
关于word2vec 的解释见word2vec的数学原理。 本代码主要是实现了skip-gram模型,通过神经网络,对概率进行建模(概率模型中的最大似然,其实就是神经网络中的最小损失)# Copyright 2015 The TensorFlow Authors. All Rights Reserved.## Licensed under the Apache License, Ve原创 2016-10-18 15:20:37 · 8459 阅读 · 5 评论 -
使用 spacy 进行自然语言处理(一)
介绍自然语言处理(NLP) 是人工智能方向一个非常重要的研究领域。 自然语言处理在很多智能应用中扮演着非常重要的角色,例如:automated chat bots,article summarizers,multi-lingual translationopinion identification from data每一个利用NLP来理解非结构化文本数据的行业,不仅要求准确,而且在获取结果翻译 2018-02-13 13:09:42 · 71361 阅读 · 8 评论 -
tf-idf
TF-IDF 是为了解决 document 中 term 的权重问题。TF (term frequency)将一个 document 中的每一个 term 都赋予一个权重,最简单的方法就是将 term 在此 document 中出现的次数。用频数表示权重的方法叫做 TF,数学表示为:tft,d\text{tf}_{t,d} ,表示 “document” d 中 “term” t 出现的次数。I原创 2018-02-20 17:40:28 · 605 阅读 · 0 评论 -
pytorch学习笔记(十九):torchtext
文章部分翻译自 http://anie.me/On-Torchtext/ API一览torchtext.datatorchtext.data.Example : 用来表示一个样本,数据+标签torchtext.vocab.Vocab: 词汇表相关torchtext.data.Datasets: 数据集类,__getitem__ 返回 Example实例torchtext...原创 2018-02-11 13:47:04 · 51612 阅读 · 31 评论 -
pytorch学习笔记(二十一): 使用 pack_padded_sequence
在使用 pytorch 的 RNN 模块的时候, 有时会不可避免的使用到 pack_padded_sequence 和 pad_packed_sequence, 当使用双向RNN的时候, 必须要使用 pack_padded_sequence !! .否则的话, pytorch 是无法获得 序列的长度, 这样也无法正确的计算双向 RNN/GRU/LSTM 的结果.但是在使用 pack_padd...原创 2018-03-29 21:20:40 · 24297 阅读 · 6 评论