Python
文章平均质量分 64
13线
产品者也
展开
-
Bert模型_3分钟热情学NLP第11篇
3分钟热情学NLP第11篇,Bert模型BERT :Bidirectional Encoder Representations from Transformers)2018年的10月11日,Google AI的Jacob Devlin和他的合作者在arxiv上放上了他们的文章,名为《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文地址:https://arxiv.org/abs/1原创 2021-02-26 16:26:35 · 270 阅读 · 0 评论 -
ElMo模型_3分钟热情学NLP第10篇
3分钟热情学NLP第10篇,ELMo模型1、word2vec和glove面临的严重问题word2vec和glove面临的1个严重的问题是多义词问题。在Word Embedding 时,单词的向量值是唯一的,如中文“苹果”,英文“bank”,在训练时,这些多义词会被训练成“同义词”,即它们在模型中向量值是1个。word2vec无法表示多义。ElMo模型,可以有效地解决多义词问题。2、ElMo模型简介ELMO,Embedding from Language Models,对应的论文为:D原创 2021-02-26 16:25:32 · 175 阅读 · 0 评论 -
GloVe模型_3分钟热情学NLP第9篇
3分钟热情学NLP第9篇,GloVe模型GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两原创 2021-02-26 16:24:26 · 139 阅读 · 0 评论 -
doc2vec计算句子相似度_3分钟热情学NLP第8篇
3分钟热情学NLP第8篇,doc2vec计算句子相似度word2vec面临的问题word2vec计算句子或长文本的方法,大致的是:1、对文本进行分词;2、计算各个分词的词向量;3、对词向量取平均值,或者其他方式进行词向量的拼接。显而易见,这样的的计算方法的缺点是:丢失了文本之间的语序比如:我喜欢小明,小明喜欢我。这2句话,语义不一样;但是通过上面的分词+词向量的方法,向量值是相同的。因此,在word2vec的基础上,有研究人员提出了文本向量的概念doc2vec2、doc2vec文原创 2021-02-26 16:22:41 · 391 阅读 · 0 评论 -
Wrod2vec计算句子相似度_3分钟热情学NLP第6篇
3分钟热情学NLP第6篇,Wrod2vec计算句子相似度参考文章:1、https://blog.csdn.net/joleoy/article/details/997411392、https://www.zhihu.com/question/299782681、无监督,句子相似度的计算方法无监督,即不需要额外的标注数据。通过词向量计算句子之间的相似度,大致有下面几种方法:1.1、求平均值比如一句话包含ABC共3个词汇,那么这句话的句向量值即为ABC的向量求和,再除以3;1.2、原创 2021-02-03 17:12:58 · 269 阅读 · 0 评论 -
Wrod2vec计算句子相似度实战_3分钟热情学NLP第7篇
3分钟热情学NLP第7篇,Wrod2vec计算句子相似度实战方法1,计算句子中各个词向量,得出句子的平均值1、使用jieba分词,得出该句子包含的词;2、计算每个词的词向量;3、求得该句子的平均值4、采用余弦值,计算各个句子的相似度;输入:import numpy as npfrom scipy import spatialimport jiebamodel = gensim.models.Word2Vec.load('word2vec_wx')model_dimensio原创 2021-02-03 17:09:44 · 437 阅读 · 0 评论 -
Wrod2vec算法实战_3分钟热情学NLP第5篇
参考文章:https://blog.csdn.net/qq_30189255/article/details/1030495691、语料本文采用的语料:#将语料text8,保存在sentence中;text8有100mb大小;text8的下载地址:http://mattmahoney.net/dc/text8.ziptext8语料,已经按照空格进行分词,去掉了标点符号,无需进行预处理2、模型训练采用python的gensim包实现word2vec输入:from gen...原创 2021-01-19 22:42:25 · 211 阅读 · 0 评论 -
Wrod2vec算法_3分钟热情学NLP第4篇
第4篇:3分钟热情学NLP,word2vec在NLP领域,文本表示是第1步,也是很重要的1步。所谓文笔表示,即如何把自然语言的语言符合,转化成计算机能够处理的数字。文本向量化.png1、文本向量化现阶段,文本向量化,大部分是通过词向量化来实现的;也有一部分算法,将整篇文章或整条句子作为最小处理单位来实现文本向量化,如doc2vec;1.1、独热编码one-hotone-hot编码,是最直观的1个词表示方式。构建1个文本词典,每个分词是1个比特值,比特值为0或1。动物特征可表示原创 2021-01-19 22:38:51 · 137 阅读 · 0 评论 -
关键词提取TextRank算法_3分钟热情学NLP第3篇
第3篇:三分钟热情学NLP-关键词提取TextRank算法TextRank算法,借鉴了PageRank的思想,或者可以直接理解成:TextRank是PageRank的2.0版。1、PageRank算法谷歌的2位创始人佩奇和布林,借鉴了评判论文重要性的方法(学术界,如果1篇论文被引用得越多,就会认为该论文越重要)来评价网页的重要性,概况来说就是2点:1、要数量。某个网页被越多网页链接的话,说明这个网页越重要,其对应的PageRank值越高;2、要质量。被PageRank值较高的网页A链接的网页原创 2021-01-19 22:34:13 · 269 阅读 · 0 评论 -
关键词提取TF-IDF_3分钟热情学NLP第2篇
第2篇:三分钟热情学NLP-关键词提取TF-IDF一篇文章或1个文档中,哪些词对文章更重要?哪些词可以作为关键词?自动提取关键词可以快速地从海量的信息中提取和获取信息,下面简述下关键词提取技术。1、关键词提取的机器学习方法有监督的机器学习方法:构建1个丰富的词表,判断每个文档与词表中每个次的匹配程度,这种方法是准确高;缺点是维护词表和标注的成本高;无监督的机器学习方法:2个常见算法是TF-IDF算法和TextRank算法2、TF-IDF算法TF-IDF词频-逆文档概率,一般是指词频和逆原创 2021-01-19 22:27:10 · 172 阅读 · 0 评论 -
Jieba分词_3分钟热情学NLP第1篇
第1篇:三分钟热情学NLP-Jieba分词NLP,自然语言理解,即计算机对人类语言进行理解;NLP是人工智能皇冠上的明珠,是AI最难的领域之一;1、人类语言有多复杂人类语言是经过加工的,需要有有背景知识才能理解;比如“夏天能穿多少就穿多少,冬天能传多少就穿多少”“单身的原因是喜欢上一个人,还可能是喜欢上一个人”可见,语言理解是1道“很有门槛”的事情,理解句子,从分词开始,2、jieba分词-总览jieba的git主页https://github.com/fxsjy/jieba原创 2021-01-19 22:25:38 · 116 阅读 · 0 评论 -
Python爬虫,使用BeautifulSoup爬取豆瓣电影TOP250电影信息(BeautifulSoup, lxml)
上一篇:Python爬虫,通过正则表达式爬取豆瓣电影TOP250的图片,https://blog.csdn.net/licx1988/article/details/102869923本篇,使用BeautifulSoup进行解析,解析库:BeautifulSoup解析器:lxml方法选择器:find()和find_all()BeautifulSoup的官方文档:https://w...原创 2019-11-02 20:24:41 · 2392 阅读 · 0 评论 -
Python爬虫,通过正则表达式爬取豆瓣电影TOP250的图片
本文,使用requests库。豆瓣电影TOP250排行的地址:https://movie.douban.com/top250?start=本次爬取,共分3个步骤:1、获取单个页面的HTMLhttps://movie.douban.com/top250?start=https://movie.douban.com/top250?start=252、对对个页面的HT...原创 2019-11-02 11:35:55 · 2927 阅读 · 0 评论