Python_13线的博客-CSDN博客

Python

关注

文章平均质量分 64

关注数：文章数：13 文章阅读量：7905 文章收藏量：38

作者: 13线

产品者也

展开

Bert模型_3分钟热情学NLP第11篇

3分钟热情学NLP第11篇，Bert模型BERT ：Bidirectional Encoder Representations from Transformers)2018年的10月11日，Google AI的Jacob Devlin和他的合作者在arxiv上放上了他们的文章，名为《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文地址：https://arxiv.org/abs/1

原创 2021-02-26 16:26:35 · 270 阅读 · 0 评论
ElMo模型_3分钟热情学NLP第10篇

3分钟热情学NLP第10篇，ELMo模型1、word2vec和glove面临的严重问题word2vec和glove面临的1个严重的问题是多义词问题。在Word Embedding 时，单词的向量值是唯一的，如中文“苹果”，英文“bank”，在训练时，这些多义词会被训练成“同义词”，即它们在模型中向量值是1个。word2vec无法表示多义。ElMo模型，可以有效地解决多义词问题。2、ElMo模型简介ELMO，Embedding from Language Models，对应的论文为：D

原创 2021-02-26 16:25:32 · 175 阅读 · 0 评论
GloVe模型_3分钟热情学NLP第9篇

3分钟热情学NLP第9篇，GloVe模型GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两

原创 2021-02-26 16:24:26 · 139 阅读 · 0 评论
doc2vec计算句子相似度_3分钟热情学NLP第8篇

3分钟热情学NLP第8篇，doc2vec计算句子相似度word2vec面临的问题word2vec计算句子或长文本的方法，大致的是：1、对文本进行分词；2、计算各个分词的词向量；3、对词向量取平均值，或者其他方式进行词向量的拼接。显而易见，这样的的计算方法的缺点是：丢失了文本之间的语序比如：我喜欢小明，小明喜欢我。这2句话，语义不一样；但是通过上面的分词+词向量的方法，向量值是相同的。因此，在word2vec的基础上，有研究人员提出了文本向量的概念doc2vec2、doc2vec文

原创 2021-02-26 16:22:41 · 391 阅读 · 0 评论
Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

3分钟热情学NLP第6篇，Wrod2vec计算句子相似度参考文章：1、https://blog.csdn.net/joleoy/article/details/997411392、https://www.zhihu.com/question/299782681、无监督，句子相似度的计算方法无监督，即不需要额外的标注数据。通过词向量计算句子之间的相似度，大致有下面几种方法：1.1、求平均值比如一句话包含ABC共3个词汇，那么这句话的句向量值即为ABC的向量求和，再除以3；1.2、

原创 2021-02-03 17:12:58 · 269 阅读 · 0 评论
Wrod2vec计算句子相似度实战_3分钟热情学NLP第7篇

3分钟热情学NLP第7篇，Wrod2vec计算句子相似度实战方法1，计算句子中各个词向量，得出句子的平均值1、使用jieba分词，得出该句子包含的词；2、计算每个词的词向量；3、求得该句子的平均值4、采用余弦值，计算各个句子的相似度；输入：import numpy as npfrom scipy import spatialimport jiebamodel = gensim.models.Word2Vec.load('word2vec_wx')model_dimensio

原创 2021-02-03 17:09:44 · 437 阅读 · 0 评论
Wrod2vec算法实战_3分钟热情学NLP第5篇

参考文章：https://blog.csdn.net/qq_30189255/article/details/1030495691、语料本文采用的语料：#将语料text8，保存在sentence中；text8有100mb大小；text8的下载地址：http://mattmahoney.net/dc/text8.ziptext8语料，已经按照空格进行分词，去掉了标点符号，无需进行预处理2、模型训练采用python的gensim包实现word2vec输入：from gen...

原创 2021-01-19 22:42:25 · 211 阅读 · 0 评论
Wrod2vec算法_3分钟热情学NLP第4篇

第4篇：3分钟热情学NLP，word2vec在NLP领域，文本表示是第1步，也是很重要的1步。所谓文笔表示，即如何把自然语言的语言符合，转化成计算机能够处理的数字。文本向量化.png1、文本向量化现阶段，文本向量化，大部分是通过词向量化来实现的；也有一部分算法，将整篇文章或整条句子作为最小处理单位来实现文本向量化，如doc2vec；1.1、独热编码one-hotone-hot编码，是最直观的1个词表示方式。构建1个文本词典，每个分词是1个比特值，比特值为0或1。动物特征可表示

原创 2021-01-19 22:38:51 · 137 阅读 · 0 评论
关键词提取TextRank算法_3分钟热情学NLP第3篇

第3篇：三分钟热情学NLP-关键词提取TextRank算法TextRank算法，借鉴了PageRank的思想，或者可以直接理解成：TextRank是PageRank的2.0版。1、PageRank算法谷歌的2位创始人佩奇和布林，借鉴了评判论文重要性的方法（学术界，如果1篇论文被引用得越多，就会认为该论文越重要）来评价网页的重要性，概况来说就是2点：1、要数量。某个网页被越多网页链接的话，说明这个网页越重要，其对应的PageRank值越高；2、要质量。被PageRank值较高的网页A链接的网页

原创 2021-01-19 22:34:13 · 269 阅读 · 0 评论
关键词提取TF-IDF_3分钟热情学NLP第2篇

第2篇：三分钟热情学NLP-关键词提取TF-IDF一篇文章或1个文档中，哪些词对文章更重要？哪些词可以作为关键词？自动提取关键词可以快速地从海量的信息中提取和获取信息，下面简述下关键词提取技术。1、关键词提取的机器学习方法有监督的机器学习方法：构建1个丰富的词表，判断每个文档与词表中每个次的匹配程度，这种方法是准确高；缺点是维护词表和标注的成本高；无监督的机器学习方法：2个常见算法是TF-IDF算法和TextRank算法2、TF-IDF算法TF-IDF词频-逆文档概率，一般是指词频和逆

原创 2021-01-19 22:27:10 · 172 阅读 · 0 评论
Jieba分词_3分钟热情学NLP第1篇

第1篇：三分钟热情学NLP-Jieba分词NLP，自然语言理解，即计算机对人类语言进行理解；NLP是人工智能皇冠上的明珠，是AI最难的领域之一；1、人类语言有多复杂人类语言是经过加工的，需要有有背景知识才能理解；比如“夏天能穿多少就穿多少，冬天能传多少就穿多少”“单身的原因是喜欢上一个人，还可能是喜欢上一个人”可见，语言理解是1道“很有门槛”的事情，理解句子，从分词开始，2、jieba分词-总览jieba的git主页https://github.com/fxsjy/jieba

原创 2021-01-19 22:25:38 · 116 阅读 · 0 评论
Python爬虫，使用BeautifulSoup爬取豆瓣电影TOP250电影信息（BeautifulSoup, lxml）

上一篇：Python爬虫，通过正则表达式爬取豆瓣电影TOP250的图片，https://blog.csdn.net/licx1988/article/details/102869923本篇，使用BeautifulSoup进行解析，解析库：BeautifulSoup解析器：lxml方法选择器：find()和find_all()BeautifulSoup的官方文档：https://w...

原创 2019-11-02 20:24:41 · 2392 阅读 · 0 评论
Python爬虫，通过正则表达式爬取豆瓣电影TOP250的图片

本文，使用requests库。豆瓣电影TOP250排行的地址：https://movie.douban.com/top250?start=本次爬取，共分3个步骤：1、获取单个页面的HTMLhttps://movie.douban.com/top250?start=https://movie.douban.com/top250?start=252、对对个页面的HT...

原创 2019-11-02 11:35:55 · 2927 阅读 · 0 评论

Python

作者: 13线

Bert模型_3分钟热情学NLP第11篇

ElMo模型_3分钟热情学NLP第10篇

GloVe模型_3分钟热情学NLP第9篇

doc2vec计算句子相似度_3分钟热情学NLP第8篇

Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

Wrod2vec计算句子相似度实战_3分钟热情学NLP第7篇

Wrod2vec算法实战_3分钟热情学NLP第5篇

Wrod2vec算法_3分钟热情学NLP第4篇

关键词提取TextRank算法_3分钟热情学NLP第3篇

关键词提取TF-IDF_3分钟热情学NLP第2篇

Jieba分词_3分钟热情学NLP第1篇

Python爬虫，使用BeautifulSoup爬取豆瓣电影TOP250电影信息（BeautifulSoup, lxml）

Python爬虫，通过正则表达式爬取豆瓣电影TOP250的图片