NLP
一杯拿铁go
好记性不如烂笔头
展开
-
doc2vec的一些操作
1,从doc2vec模型中提取出word2vec向量表,代码如下:from gensim.test.utils import common_textsfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentdocuments = [TaggedDocument(doc, [i]) for i, doc in enumerate(c...原创 2020-02-27 11:19:43 · 622 阅读 · 0 评论 -
【NLP】基础:
一,词向量的表达1,最初的词的表示是使用"one-hot"编码来的,对于一个单词使用数组将其在字典中所在的位置处标1,其他标0,这样来表示一个字典中的词:wordi = {0,0…1…0}这样会造成很大的稀疏性,而且两个单词直接的距离永远是根号2。2,然后是词袋模型:bag of word ,词在文档中不考虑顺序,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本...原创 2018-11-01 13:31:05 · 211 阅读 · 0 评论 -
【NLP】检索模型与排序
向量空间模型:将文章使用特征向量来表示,对于文章可以使用一些特征来表达;同样的对于用户输入的query也可以使用特征向量来表示;最后使用cos函数就可以得到query和文档的相似性。一篇文章的的特征向量可以使用tf-idf(词频-逆文档频率)来计算。向量空间的不足:对于长文本不利。由于长文本除了包含相关词之外还包含其他的词因此其相关词的权重相对较小,因此会造成长文本与query的相似性较弱。...原创 2018-12-15 16:17:01 · 1333 阅读 · 0 评论 -
【nlp】query纠错的笔记
背景:用户输入query的时候有时会出现手误的情况,这时就需要给与正确的纠正,来提高用户体验。如下图所示:用户搜索“周杰仑”会直接显示“周杰伦”的搜索结果并提升用户是否仍然搜索“周杰仑”。中文纠错:中文纠错与英文的构成区别很大,通常中文词语往往比较短,通常一个词的编辑距离会产生大量的候选集。由于拼音打字法的普及几乎所有的字都是通过拼音打字出来的,因此中文字的错误其实可以归结到拼音构成的...原创 2018-12-22 15:05:26 · 2298 阅读 · 0 评论 -
Word Embedding资料整理
最近要分享一次Word Embedding,虽然对这个东西早就知道,但是一直没有一个详细的梳理,趁着这次机会好好梳理一下这方面的东西。在网上看到正好有人写了相关的文章,就拿来学习了一番,再加上一些作者不屑于写的知识。word Embedding技术背景 word2vec word Embedding现今的发展 进化从未停止一,word Embedding技术背景 万物皆可Em...原创 2019-08-03 17:27:48 · 395 阅读 · 0 评论 -
bert实战:安装与跑demo
Bert介绍Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。关于Bert具体训练的...原创 2019-08-10 15:42:13 · 13873 阅读 · 15 评论