NLP
飞猫侠
渴望一流技术的三流技术宅
展开
-
NLP ----- TF-IDF
作为文本处理比较经典的方法,本文通过手动构造 tf_idf 矩阵和 R 的 tm包当中提供的 DocumentTermMatrix 函数方法的构造进行对比,来一种比较直观的解读. 1.构造原始文本数据 doc_1 <- "见鬼了"doc_2 <- "我见鬼了"doc_3 <- "我真的见鬼了"text_data <- c(doc_1, doc_2, doc_...原创 2018-05-16 20:56:03 · 1862 阅读 · 2 评论 -
using keras learn Neural networks (2)
上节探究了模型输入和神经元输出的关系,其主要是为了疏理清楚一些之前的思维误区,为了更好的理解RNN。同时也是因为自己在之前的学习过程始终存在一些不明白的地方,正所谓理越辨越明,学习之路任重而道远,特此记录下来,可以帮助到同时也存在相同困惑的童鞋们(天才少年可以跳过,不浪费时间),若理解有误,欢迎拍砖纠正。 词嵌入是现在基于nn处理各种NLP任务的First st...原创 2018-08-12 04:17:30 · 177 阅读 · 0 评论 -
Keras with R (RNN)
之前学习过了,MLP,CNN,所以RNN也不能落下。下面以经典数据集IMDB来训练一个RNN模型。IMDB是25,000条影评数据,被标记为正面/负面两种评价。影评已被预处理为词下标构成的序列。关于词下标构成的序列,即是将词从词典中查找对应的索引构成的序列。 eg: 上图即表示了一个序列样本,序列中的数字代表词在词典中的索引,若以该索引...原创 2018-08-12 15:09:34 · 3500 阅读 · 0 评论 -
using keras learn Neural networks (3)
语言模型是现代NLP技术的基础,所有基于统计的NLP算法都是以语言模型作为基础来设计的。什么是语言模型?简单地说,语言模型就是用来计算一个句子的概率的模型,即P(W1,W2,...Wk)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。 训练一个能覆盖很多语料的语言模型有些难度,以下通过一个简单的RNN的demo来说明它的奇妙。 ...原创 2018-10-25 04:12:15 · 146 阅读 · 0 评论 -
NLP ----- Bert with Sentiment Analysis
Bert模型可谓是在2018年NLP领域的大杀器,它的刷新了各种数据集上的NLP任务新高度,好像预示着人类在让机器理解自然语言的道路上又近了一步。google research方面也公布出了模型和代码,让该模型走近千家万户。作为模型的搬运工,自然不能错过把这样的神器收入囊中的机会。官方也给出了pretraining和fine-tuning的代码,但仅仅是调试官方的代码还是不能将模型很...原创 2019-05-25 17:47:30 · 1075 阅读 · 0 评论