NLP实战
vivian_ll
这个作者很懒,什么都没留下…
展开
-
NLP实战之基于seq2seq的有约束文本生成
遇到问题:报错tensorflow.python.framework.errors_impl.InvalidArgumentError: Cannot assign a device for operation embedding/Initializer/random_uniform/RandomUniform: Could not satisfy explicit device specification '' because the node node embedding/Initializer/ra原创 2020-09-21 22:19:01 · 1015 阅读 · 0 评论 -
NLP实战之语种识别器及Flask部署
**项目简介:**用sklearn里的朴素贝叶斯模型构建一个语种检测的分类器。数据集来自于twitter数据,包含English, French, German, Spanish, Italian 和 Dutch 6种语言。数据集形如:1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme,nl1 millón de afectados ante las inundaciones e原创 2020-09-21 22:18:50 · 1120 阅读 · 0 评论 -
NLP实战之ELMo词向量文本分类
ELMo词向量文本分类原理讲解ELMo出处:论文Deep contextualized word representationsELMo无需标注。原理可参考:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史-张俊林模型构建与训练中文预训练模型:github上有哈工大的HIT-SCIR/ELMoForManyLangs,多种语言,注意区分有繁体中文和简体中文(网盘下载)两种。该模型是基于pytorch架构的。初始化ELMo变换器配置ELMo环境安装torch原创 2020-09-21 22:18:38 · 2838 阅读 · 2 评论 -
NLP实战之text-Attition-BiLSTM中文文本分类
双向注意力LSTM神经网络文本分类原理讲解TextAttBiRNN是在双向LSTM文本分类模型的基础上改进的,主要是引入了注意力机制(Attention)。对于双向LSTM编码得到的表征向量,模型能够通过注意力机制,关注与决策最相关的信息。其中注意力机制最先在论文 Neural Machine Translation by Jointly Learning to Align and Translate 中被提出,而此处对于注意力机制的实现参照了论文 Feed-Forward Networks with原创 2020-09-21 22:17:55 · 3059 阅读 · 2 评论 -
NLP实战之基于LSTM的诗歌生成器
文本生成-诗词生成案例1.1 文本生成问题文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。国内外已经有诸如Automated Insights、Narrative Science以及“小南”机器人、“小明”机器人、“运动报道机器人”等文本生成系统投入使用。这些系统根据格式化数据或自然语言文本生成新闻、财报或者其他解释性文本。例如,Automated Insights的WordSmith技术已经被美联社等机构使用,帮助美联社报道大学橄榄球赛事、公司财报等新闻。这使得美联社不仅新闻更新速度更原创 2020-09-21 22:16:57 · 5263 阅读 · 4 评论 -
NLP实战之BERT中文情感分析
简单高效的BERT中文文本分类模型开发和部署准备环境操作系统:LinuxTensorFlow Version:1.13.1,动态图模式GPU:12G GPUTensorFlow Serving:simple-tensorflow-serving依赖库:requirements.txt目录结构说明bert是官方源码data是3分类的文本情感分析数据(可直接将.data.tsv)...原创 2020-09-21 22:15:23 · 7313 阅读 · 1 评论 -
NLP实战之HAN文本分类
HAN(层叠注意力)神经网络文本分类原理讲解HAN出处:论文Hierarchical Attention Networks for Document Classification可以参见讲解文献阅读笔记:Hierarchical Attention Networks for Document Classification这篇论文表示,对文档/较长文本进行分类的时候,仅仅对word粒度进行Attention是不够的,还需要对各个句子(短句)进行Attention的学习,不同句子也需要分配不同的权重,每原创 2020-09-21 22:14:58 · 2493 阅读 · 2 评论 -
NLP实战之textRCNN中文文本分类
text-RCNN神经网络文本分类原理讲解RCNN出处: 论文Recurrent Convolutional Neural Networks for Text Classification讲解可以参考TextRCNN 阅读笔记网络结构Word Representation Learning. RCNN uses a recurrent structure, which is a bi-directional recurrent neural network, to capture the co原创 2020-09-19 23:04:58 · 1489 阅读 · 0 评论 -
NLP实战之textCNN中文文本分类
原理可以参考:使用textCNN进行文本分类的原理Keras的另一个实现可以参考:Keras实现textCNN文本分类模型构建与训练定义网络结构定义一个textCNN类, 代码为tensorflow2.x版本。from tensorflow.keras import Input, Modelfrom tensorflow.keras.layers import Embedding, Dense, Conv1D, GlobalMaxPooling1D, Concatenate, Dropout原创 2020-09-19 23:05:12 · 2047 阅读 · 1 评论 -
NLP实战之textRNN-textBiRNN中文文本分类
循环神经网络文本分类原理讲解TextRNN相关论文:Recurrent Neural Network for Text Classification with Multi-Task Learning本文实现TextRNN 的网络结构:基于keras,在代码上的实现和textCNN类似。定义textRNN网络结构和textCNN唯一的区别在于get_model函数。from tensorflow.keras import Input, Modelfrom tensorflow.keras.原创 2020-09-19 23:04:35 · 824 阅读 · 0 评论 -
NLP实战之Fasttext中文文本分类
Facebook Fasttext简介fasttext是facebook开源的一个词向量与文本分类工具,在学术上没有太多创新点,好处是模型简单,训练速度非常快。简单尝试可以发现,用起来还是非常顺手的,做出来的结果也不错,可以达到上线使用的标准。简单说来,fastText做的事情,就是把文档中所有词通过lookup table变成向量,取平均之后直接用线性分类器得到分类结果。fastText和ACL-15上的deep averaging network(DAN,如下图)比较相似,是一个简化的版本,去掉了中原创 2020-09-19 23:04:23 · 9346 阅读 · 4 评论 -
NLP实战之基于sklearn和基于spark的中文文本分类
1 基于sklearn的机器学习方法完成中文文本分类1.1 文本分类 = 文本表示 + 分类模型1.1.1 文本表示:BOW/N-gram/TF-IDF/word2vec/word embedding/ELMo1.1.2 分类模型:NB/LR/SVM/LSTM(GRU)/CNN语种判断:拉丁语系,字母组成的,甚至字母也一样 => 字母的使用(次序、频次)不一样1.1.3 文本表示词袋模型(中文):①分词:第1句话:[w1 w3 w5 w2 w1…]第2句话:[w11 w32 w51原创 2020-09-19 23:02:22 · 1811 阅读 · 0 评论 -
NLP实战之关键词提取与主题模型
中文自然语言处理分析和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个额外的分词工具去把完整的文本中分解成粒度更细的词。1.1 关键词提取1.1.1 基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为原创 2020-09-19 23:02:08 · 6709 阅读 · 0 评论 -
NLP实战之基本中文处理与词云
文本分析与可视化文本分析与展示在任何建模问题之前,一般我们都会对数据进行一定的分析,文本也不例外,不过文本并不像很多业务数据,是数值形态的,这时候很多统计的方式,是大家理解数据的初步。而文本的可视化,经常会用到词云的形式,词云是很有说服力的一种可视化方式,尤其是对于文本中心内容展示,下面以娱乐类别的新闻数据为例生成词云。代码0. 工具库引入#coding:utf-8__author__ = 'Hanxiaoyang'import warningswarnings.filterwarning原创 2020-09-19 23:01:52 · 804 阅读 · 1 评论