自然语言处理
文章平均质量分 82
码世界-
这个作者很懒,什么都没留下…
展开
-
tensorflow [saved_model,.pb]模型生成及处理以及多模型合并到上线服务请求从0到1
多模型合并:在模型上线时,我们训练的多个模型往往功能相似或相近或有某种联系,在请求模型的返回结果时,如果一个接一个的去请求,会严重影响程序的效率。并发请求虽然能够缓解这种现象,理论上甚至可以达到与单个模型相同的请求时间,但是实际操作与理论还是有很大差距的。很明显,这种将模型串联起来的方式不够科学。如果把这些模型并联起来,分别接受相同或不同的输入,效果会大大不同,其运行效率与单个模型相差无几。接...原创 2019-12-03 17:56:55 · 2762 阅读 · 1 评论 -
使用预训练的word2vec词向量
以谷歌开源google news(bin)为例。下载地址:https://code.google.com/p/word2vec更多模型下载地址:https://github.com/xgli/word2vec-api之前被这个问题困扰了挺长时间,一直找不到有效的方法,可能是我太菜……在网上找资料也只找到了一种把bin转换成txt 文件的方式,但是效率出奇的低,无法想象,本地一运行程序就死机,服务器...原创 2017-12-02 16:22:52 · 25340 阅读 · 11 评论 -
TEACH_NLP——开篇
接触NLP以来,走过的坑颇多,回头望,满是心酸泪啊。鉴于此,为了让更多的人少走弯路,我决定写下一系列教程,既是为了总结这段时间所学,也是为了服务大众。毕竟才疏学浅,还希望大家多多批评指教。暂定每周更新一篇TEACH_NLP博文,希望能让后来人能够尽快的走入NLP的大门。目前我的研究方向是情感分类,方法是深度学习(LSTM,CNN。。。),工具以tensorflow为主,语料库以英文语料库为主,原创 2018-01-17 00:15:47 · 314 阅读 · 0 评论 -
Tensroflow应用快速入门(一)
在真正的教程开始之前,先将我之前写的两个小教程给大家看一下,以便对tensorflow的实现过程有一个整体性的理解。这两篇教程最初发表于我的个人网站:点击打开链接第一步安装anaconda,第二步cpu版直接pip install tensorFlow,若安装不上可以考虑清华的镜像,网上有很多教程,此处不做过多讲解。第三步命令行输入python,进入python环境,然后import tensor原创 2018-01-17 22:35:39 · 520 阅读 · 0 评论 -
Tensorflow应用快速入门(二)
学习tensorflow先要了解它编码的流程,在此简要描述一下其流程,所有的TensorFlow训练神经网络的过程大致可以分为以下三个过程:1、定义神经网络的结构和前向传播的输出结果。2、定义损失函数以及选择反向传播优化的算法。3、生成会话并且在训练数据上反复运行反向传播优化算法。无论神经网络结构如何变化,这三个步骤是不变的。当然,每一步里面涉及到的方法和函数是比较复杂的,真正学好神经网络不止要了原创 2018-01-17 22:40:53 · 407 阅读 · 0 评论 -
使用glove词向量
在我的个人博客上很早就把这篇文章写出来了,现在转到CSDN,作为word2vec的姊妹篇,无论你使用的是word2vec还是glove,两种方式都是通用的。仅作少许改动即可。前段时间把word2vec词向量的用法整理了一下。处理的是二进制文件,二进制文件处理起来是比较快的,但是过程可能比较繁琐。这次整理了一下glove词向量的处理方式,文件是txt格式的。Glove.txt文件大概是这样子的。图中...原创 2018-04-14 10:11:46 · 9212 阅读 · 4 评论 -
【TeachNLP】文本数据处理-词表获取
计算机是不能直接识别语言的,比如英语,汉语……因此,需要先把自然语言转化成计算机能够识别的符号——数字(向量)。大体流程如下。自然语言——>编号——>向量当我们拿到一段文本,首先要统计出词表,并把词表保存成vocab.txt,方便后续使用。一般来说能用到词表的地方有:1、编号;2、词向量抽取;词表的统计很简单,当我们拿到一段文本:为了保证生成的词表没有重复的词语,我...原创 2019-09-09 18:02:55 · 1971 阅读 · 0 评论 -
【TEACH-NLP】词向量预处理-抽取词向量
词向量训练完成之后,并不能直接使用,还需要做进一步的处理——抽取词表中对应的词向量。并不是所有的词向量都是有用的,我们仅用到词表中的词向量,将抽取出来的词向量保存成一个新的文件,以备后续使用。【提要】一、这里我们要用到之前的两个文件:vocab.txt #词表vec.bin #词向量表二、还要生成一个新的文件来保存抽取出来的词向量:select_vocab.txt #抽取出...原创 2019-09-29 11:27:41 · 452 阅读 · 0 评论