NLP
风狂的学者
学习就要有不畏风雨的疯狂,努力前行
展开
-
NLP实践系列:2、特征提取
自然语言处理中,特征提取是十分重要的一环,而提取特征,主要是提取单词的特征,比如读音,和语义。这就涉及到了分词的问题。1、基本文本处理技能1.1 分词相关的概念 分词指的是将一个单词序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1.2三类分词...原创 2019-03-05 17:38:38 · 1023 阅读 · 0 评论 -
NLP实践系列:1、探索NPL数据集
1、数据集来源中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud英文数据集:IMDB数据集 Sentiment Analysis1、测试依赖包,TensorFlow版本import tensorflow as tffrom tensorflow import kerasimport nu...原创 2019-03-03 21:39:30 · 1371 阅读 · 0 评论 -
NLP实践系列:9、Attention原理
1. Attention机制由来编码器-解码器 (Encode-Decode) 结构在许多领域较其他的传统模型方法都取得了更好的结果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示。然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示。使用传统编码器-解码器的RNN模型先用一些LSTM单元来对输入...原创 2019-03-19 21:58:34 · 368 阅读 · 0 评论 -
NLP实践系列:10、最强NLP模型:BERT
导论:2018年NPL领域,很不凡,二月出了 ELMo,六月出了 OpenAI Transformer,十月又出了BERT,模型一个比一个强大,性能也是越加优良,最为目前特别亮眼的Bert模型,被称为最强NPL模型,究竟有何特别之处呢?他是有何而来的?接下来我们来探讨一下。1. Transformer的原理。自从google推出word2vec,传统的基于统计学的语言处理模型与基于神经网络...原创 2019-03-23 00:30:21 · 1821 阅读 · 0 评论 -
NLP实践系列:3、特征选择
1. TF-IDF原理。TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本都会...原创 2019-03-07 21:43:52 · 596 阅读 · 0 评论