NLP
AItrust
AI_Computer Vision
展开
-
NLP 利器 Gensim 中 word2vec 模型词嵌入 Word Embeddings 的可视化
本文为系列文章之一,前面的几篇请点击链接:NLP 利器 gensim 库基本特性介绍和安装方式NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示NLP 利器 Gensim 来训练自己的 word2vec 词向量模型NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置NLP 利器 Gensim 中 word2vec 模型的内存需求,和模型评估方式NLP 利器 Gensim 中 word2vec 模型的恢复训练:载入存储模型并继续训练NLP 利器 Gens原创 2020-06-08 19:15:37 · 1122 阅读 · 0 评论 -
NLP 利器 Gensim 中 word2vec 模型添加 model to dict 方法来加速搜索
本文为系列文章之一,前面的几篇请点击链接:NLP 利器 gensim 库基本特性介绍和安装方式NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示NLP 利器 Gensim 来训练自己的 word2vec 词向量模型NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置NLP 利器 Gensim 中 word2vec 模型的内存需求,和模型评估方式NLP 利器 Gensim 中 word2vec 模型的恢复训练:载入存储模型并继续训练NLP 利器 Gens原创 2020-06-07 19:06:16 · 683 阅读 · 0 评论 -
NLP 利器 Gensim 中 word2vec 模型的训练损失计算,和对比基准的选择
本文为系列文章之一,前面的几篇请点击链接:NLP 利器 gensim 库基本特性介绍和安装方式NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示NLP 利器 Gensim 来训练自己的 word2vec 词向量模型NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置NLP 利器 Gensim 中 word2vec 模型的内存需求,和模型评估方式NLP 利器 Gensim 中 word2vec 模型的恢复训练:载入存储模型并继续训练文章目录一、训练损失原创 2020-06-06 19:39:46 · 2144 阅读 · 4 评论 -
Gensim 中 word2vec 模型的恢复训练:载入存储模型并继续训练
Gensim 中 word2vec 模型的恢复训练本文为系列文章之一,前面的几篇请点击链接:NLP 利器 gensim 库基本特性介绍和安装方式NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示NLP 利器 Gensim 来训练自己的 word2vec 词向量模型NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置NLP 利器 Gensim 中 word2vec 模型的内存需求,和模型评估方式恢复训练载入模型,并继续训练:model = gensi原创 2020-06-05 19:10:20 · 1823 阅读 · 1 评论 -
NLP 利器 Gensim 中 word2vec 模型的内存需求,和模型评估方式
Gensim 中 word2vec 模型的内存需求,和模型评估方式本文为系列文章之一,前面的几篇请点击链接:NLP 利器 gensim 库基本特性介绍和安装方式NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示NLP 利器 Gensim 来训练自己的 word2vec 词向量模型NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置文章目录一、内存需求二、模型评估一、内存需求word2vec 模型的参数是以 Numpy array 的形式存储。sha原创 2020-06-04 17:32:54 · 1383 阅读 · 0 评论 -
NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置
使用 Gensim 来训练 word2vec 词向量模型的参数设置文章目录一、最小频次 min_count二、词向量维度 size三、并行处理核心数 workers我们可以使用一些参数设置来控制训练的速度和质量。一、最小频次 min_countmin_count 用来修剪内部的词表。比如在一个 10 亿词级别的语料中,如果一个词只出现了一两次,那这个词不是错字就是垃圾~。再说了,出现次数太少,我们也没有足够的数据来训练出该词的有意义的词向量,所以最好的做法就是:剔除。# 准备语料from g原创 2020-06-03 19:15:19 · 2288 阅读 · 0 评论 -
NLP 利器 Gensim 来训练自己的 word2vec 词向量模型
首先,要训练一个自己的词向量模型,我们是需要一些数据的。在这里,我们使用 Lee Corpus 作为训练用语料数据。下载地址:一、数据预处理这个语料库不大,可以一次读取到内存中,但是我们可以用 “内存友好” 的方式,一行一行地读取,这种方式同样适合处理大规模语料。from gensim.test.utils import datapathfrom gensim import utilsclass MyCorpus(object): """迭代器每次生成一个句子 (字符串的列表)。""原创 2020-06-02 17:02:21 · 1230 阅读 · 0 评论 -
NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示(基于 word2vec-google-news-300 预训练模型,附下载)
Gensim 库的使用之 Word2Vec 模型案例演示要见识一下 Word2Vec 模型可以做什么,那么最好的方法就是直接下载一个预训练模型,然后尝试用一下看看效果。我们在这里获取一个在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。这样一个模型需要几个小时来进行训练,但是既然 Google 已经将其公开,那直接花几分钟下载下来就能用了。!!!注意:该模型大小约 2GB,而且需要科学的方法才能下载!实在无法解决网络问题的朋友,可以用我提供的原创 2020-05-30 17:35:17 · 13463 阅读 · 15 评论 -
NLP 利器 gensim 库基本特性介绍和安装方式
试用了一下 gensim 效果确实不错,而且操作比较简洁,所以觉得应该推广一下本篇简介的内容皆翻译自官网,有兴趣的可以自行查阅英文信息:gensim官网Gensim 是一个 免费 的 Python 库一、3大任务:可扩展的统计语义分析纯文本文档的语义结构检索语义相似的文档二、8大特点:1.1 可扩展性 ScalabilityGensim 可以处理大量的,互联网尺度的语料,使用的是增量在线训练算法。不需要把所有的训练语料一次加载到内存中。1.2 高效实施 Efficient imp原创 2020-05-29 23:16:06 · 679 阅读 · 0 评论 -
中文NLP的第三步:获得词向量/词嵌入 word embeddings,基于 PaddleHub 实现(学习心得)
之前的步骤中,我们已经把句子进行了词语切分中文NLP的第一步:分词,基于 PaddleHub 实现,绝对小白友好(学习心得)然后把这些切好的词,根据现成的 词表,转化成了 ID中文NLP的第二步:分词转词表ID,基于 PaddleHub 实现(学习心得)第三步,把词语转化为 word embeddings这里我们依然使用 PaddleHub 提供的 word2vec_skipgram 模型,模型的介绍可以见上一篇程序实现:import numpy as npfrom scipy.spatia原创 2020-05-13 17:26:01 · 3724 阅读 · 1 评论 -
中文NLP的第二步:分词转词表ID,基于 PaddleHub 实现(学习心得)
上一步我们做了分词:中文NLP的第一步:分词,基于 PaddleHub 实现,绝对小白友好(学习心得)第二步是把分词结果,对照词表转化成 ID词表是什么呢?首先我们要知道,中文字符是没办法直接计算的,更不要说进一步的操作了,所以我们需要的是词嵌入,获得 word embedding,详见:为什么NLP中需要词嵌入 word embeddings(学习心得)而词语要转化为 word embedding 之前,先要根据词表转化为对应的序号 ID,这样转化程序才知道你转化的是哪个词所以这里面是 2原创 2020-05-10 14:56:36 · 2836 阅读 · 0 评论 -
中文NLP的第一步:分词,基于 PaddleHub 实现,绝对小白友好(学习心得)
接下来的几天,会分步进行阐述 NLP 的实际程序操作由于深度学习硬件资源的稀缺性,所以了 PaddlePaddle 作为这次实操的框架平台,虽然 Paddle 在国际上的流行度比不上 tensorflow 等架构,但是在国内 Paddle 对于开发者还是非常友好的,尤其是入门级的同学,在 Paddle 社区里面可以用中文提问和探讨,相对上手门槛就低了很多,外加有不少中文教程,确实对小白们很友好。另外,Paddle 上有免费的 GPU 资源可以用!!!而且是 Telsa V100,没概念的可以自己搜一下原创 2020-05-09 20:18:49 · 3498 阅读 · 1 评论 -
语音识别 Speech recognition 中的 CTC cost,CTC损失函数(学习心得)
seq2seq 模型在语音识别方面的应用让人激动!什么是语音识别问题呢?气压随着时间推移不断变化,产生了音频人的耳朵可以衡量不同频率和强度的声波输入整个原始的音频片段 raw audio clip生成一个声谱图 generate a spectrogram(横轴是时间,纵轴是声音的频率,颜色显示声波能量的大小)伪空白输出 false blank outputs:经常用于预处理步骤,在输入到神经网络之前过去一段时间,语音识别是基于音位 phonemes 来构建的而音位是由人工设计而成 h原创 2020-05-08 22:05:57 · 1515 阅读 · 5 评论 -
NLP中的注意力模型 Attention model(学习心得)
Attention model intuition在前面的 seq2seq 模型基础上做些改进,形成注意力模型Attention 的思想已经是深度学习中最重要的之一给定一个非常长的法语句子前面讲到的模型,会把原句子输入编码,然后解码生成翻译但是人类的做法是,一小部分,一小部分地进行翻译以 Bleu score 来说机器翻译对于短句子的处理效果较好长句子的表现就会越来越差而注意力...原创 2020-05-07 20:24:26 · 838 阅读 · 0 评论 -
NLP机器翻译任务中,如何用Bleu score评价翻译质量(学习心得)
机器翻译的一大难题是,一句法语句子,可以有多种英文翻译,这些翻译都是非常好的那怎么去评估一个机器翻译系统的质量是不是好呢?这不像图像识别,只有一个正确答案通常我们有 BLEU score(Bilingual Evaluation Understudy 双语评估替补) 来解决在戏曲界,understudy 指的是候补演员假设我们拿到一句法语同时得到几个人类翻译的结果(都是对的,也都...原创 2020-05-06 19:31:55 · 1858 阅读 · 0 评论 -
NLP语言模型,机器翻译任务中的贪心搜索 Greedy search 和集束搜索 Beam search(学习心得)
Picking the most likely sentence可以把机器翻译,想像成建立一个条件语言模型 a conditional language model语言模型,可以用来估计一个语句的概率也可以根据第一个输入,来产生后续的输出机器翻译模型,有两个网络,分别是编码网络和解码网络,对应上面的绿色和紫色可以发现,后面的解码网络,和语言模型非常类似所以这两个模型的区别在于,语言模...原创 2020-05-05 22:10:35 · 1213 阅读 · 2 评论 -
NLP中的余弦相似度 Cosine similarity 是什么,如何计算(学习心得)
余弦相似度 Cosine similarityTo measure how similar two words are, we need a way to measure the degree of similarity between two embedding vectors for the two words. Given two vectors ???? and ????, cosine simil...原创 2020-05-04 19:19:41 · 4090 阅读 · 0 评论 -
为什么NLP中需要词嵌入 word embeddings(学习心得)
NLP中一个关键理念就是词嵌入。这是语言表示的一种方式。让机器理解词语的对应关系。我们的词表,比如有10000个词,如果我们都是用 one-hot vector 来表示比如两个 one-hot vector,分别是 man 和 woman。比如 Man 这个单词,在 5391 处是 1,其他位置都是 0Woman,在 9853 处是 1,其他位置为 0这种方法把每个词孤立起来了。算法...原创 2020-05-03 19:36:32 · 1127 阅读 · 2 评论 -
对话式AI操作系统架构(学习心得)
什么是对话式操作系统以智能IoT设备(如智能音箱)为依托平台的操作系统在这个操作系统上,开发者可以进行应用程序的开发对话式操作系统的请求流程以百度的DuerOS为例:用户发出语音指令智能音箱收集音频流语音识别,将语音转化为文本文本请求在系统内转化为请求指令,发送给对应的应用服务应用服务处理请求,生成回复语音合成,将应用服务的回复结果以音频形式输出与传统web服务的区...原创 2020-04-28 20:37:40 · 1286 阅读 · 0 评论 -
AI智能创作(学习心得)
利用AI进行创作的基本思路以天气预报模板为例:首先我们获得城市,温度,天气等变量数据然后通过AI模型,可以自动生成天气播报核心思想:变量:天气变量:气温变量:城市同义语句:该天气背景下,我们如何应对我们将数据表输入模型,模型自动生成对应的播报,比如我们有一个各个城市的excel表,有对应的气温和天气,那么只要利用AI模型,就可以一键生成针对所有城市的天气预报。通过训练...原创 2020-04-27 20:37:24 · 1786 阅读 · 0 评论