Python爬虫
文章平均质量分 69
Blessy_Zhu
希望一起交流
展开
-
Python下载PDF
Python爬虫下载PDF原创 2022-01-05 22:17:07 · 1320 阅读 · 2 评论 -
Python爬虫之微信数据爬取(十三)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言微信作为我们日常交流的软件,越来越深入到我们的生活。但是,随着微信好的数量的增加,实际上真正可以联系的知心人却越来越少了。那么,怎么样能更清...原创 2019-03-20 22:42:49 · 34087 阅读 · 9 评论 -
Python爬虫之豆瓣电影评论数据的爬取(十四)
爬取豆瓣网上面的电影评论数据具有很重要的作用。电影评论数据是NLP(自然语言处理)重要的数据。通过电影评论数据集可以进一步做中文分词、命名实体识别、关键词提取、句法分析、文本向量化、情感分析、舆情分析等进一步的数据处理和应用。既然数据这么重要,废话不多说,紧接着就开始电影数据的爬取。原创 2019-04-10 20:38:17 · 36928 阅读 · 16 评论 -
Python爬虫之多线程图虫网数据爬取(十六)
今天要爬取的网站是[图虫网](https://tuchong.com/explore/)(网址:https://tuchong.com/explore/),这是一个个人非常喜欢的图片分享展示和交流的平台。上面的作品质量非常高,对于我这个摄影小白来说是一个非常不错的学习和欣赏大家作品的优质平台。没有做广告哦,只是纯属个人喜欢的推荐。本篇博文的主要内容是利用==队列数据存取==以及==多线程爬虫==的方法爬取图虫网上面的图片数据。好啦,ENOUGH TALK,LET‘S START IT!!!!!!!!!!!原创 2019-05-14 10:11:11 · 7832 阅读 · 5 评论 -
Python爬虫之定时给TA发送微信消息(十七)
对朋友很久没联系不是因为感情变了而是因为生活变了毕竟年龄增长了肩负的责任重了身边的牵挂多了……何不如,写一个程序,每天都给TA发送,TA喜欢的、或者是你想对TA说的话。今天,就利用Python中的wxpy模块,将你想说的话发给TA吧!!!!!!!!!!!!!!!!原创 2019-05-15 14:30:58 · 19189 阅读 · 17 评论 -
Python爬虫之网易云音乐数据爬取(十五)
网易云音乐上面的评论数据具有很重要的作用。通过获取这些评论数据,包括:评论用户ID,评论用户昵称,评论用户位置,评论用户评论内容,该评论被点赞人数,用户头像地址,评论时间等信息。通过用户相关的数据,可以分析用户的组成成分,从而进行更具有针对性的用户推荐,通过评论数据集可以进一步做中文分词、命名实体识别、关键词提取、句法分析、文本向量化、情感分析、舆情分析等进一步的数据处理和应用。本篇博文通过网易云的API接口,来获取数据。原创 2019-05-11 11:29:50 · 20949 阅读 · 8 评论 -
Python爬虫之猫眼APP电影数据(十八)
一声响指,宇宙间半数生命灰飞烟灭。几近绝望的复仇者们在惊奇队长(布丽·拉尔森 饰)的帮助下找到灭霸(乔什·布洛林 饰)归隐之处,却得知六颗无限宝石均被销毁,希望彻底破灭......,今天我们就来用Python爬取猫眼的电影数据原创 2019-07-14 17:32:11 · 12805 阅读 · 4 评论 -
AJAX数据爬取基本认识及原理
在爬虫的过程中,会看到如下情况,以微博评论为例子:向下滑动滚动条,却发现出现如图1所示的加载延迟(如果网络环境较好,看到的概率较小),摁下F12打开开发者工具后,继续滑动滚动条,里面出现了很多type为xhr的文件,如图2。这个时候,用requests中的get()方法爬取原生的HTML文档,却发现里面并没有要找的加载的评论内容。原创 2019-03-08 13:41:42 · 7732 阅读 · 5 评论 -
Python爬虫基础之Requests和XPath实例(三)
如何用Python爬取多个页面的数据信息呢?这次通过豆瓣网top250的图书信息来进行学习。首先给出页面(如图1所示)的URL: https://book.douban.com/top250 ,我们要爬去的信息是:书名、链接、评分、一句话评价…… 图11. 爬取单个信息首先要是爬取单个页面中单个书本的信息,这个内容上篇文章以及记录过了,代码如下:import requests#fro...原创 2018-12-21 20:08:28 · 9784 阅读 · 3 评论 -
Python爬虫基础之requests+xpath解决动态加载问题(四)
今天爬取的是豆瓣励志分类电影,解决动态加载问题。链接在这里:https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97如图1所示它的主页面: 图1这次,需要在开发者模式,审查Network的JS或者是XHR,一般数据会在Network的 JS或者 XHR 类目里。首先我们在开发者模...原创 2018-12-21 22:44:25 · 6327 阅读 · 2 评论 -
Python爬虫基础之requests+BeautifulSoup+Image 爬取图片并存到本地(五)
刚学python不久,写了一个自己认为还比较简单易懂“爬取图片的方式,并保存本地指定路径下”。我爬取的内容是“Yestone邑石网”的部分图片链接如下,https://www.yestone.com/gallery/1501754333627爬取的页面如图1所示。 图1爬取的Python代码如下import requestsfrom bs4 import BeautifulSoup ...原创 2018-12-22 22:49:23 · 9185 阅读 · 3 评论 -
Python爬虫之urllib+Json+post向有道翻译发送数据获得翻译结果(六)
这篇文章要介绍的内容是,使用urllib和Json库,通过post向浏览器发送数据,从而实现利用Python就可以使用爬虫网站的特定功能:我们这篇的实例是向《有道翻译》中发送数据,并自动给出翻译。如下图1所示: 图1首先我们还是先给出代码:from urllib import request#注释1from urllib import parseimport jsondef get...原创 2018-12-24 17:11:25 · 2423 阅读 · 5 评论 -
Python爬虫之wordcloud+jieba爬取小说并生成词云(八)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言今天这篇文章写的内容是爬取《全书网》http://www.quanshuwang.com/book/9/9055 的《盗墓笔记小说》,然后用...原创 2019-01-03 21:46:56 · 6792 阅读 · 3 评论 -
Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文(七)
Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文原创不易,转载前请注明博主的链接地址:https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言当你比较喜欢一个博主的文章,而又想把它全部下载下来,这时候我们可以通过爬虫快...原创 2018-12-25 22:44:04 · 5741 阅读 · 5 评论 -
Python爬虫之csv+PIL+BytesIO+re爬取猫眼电影排行(九)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言今天这篇文章写的内容是爬取猫眼电影TOP100的电影名称、时间、评分、图片等信息,首先看一下待爬取的网站内容,如图1所示: 图1通过...原创 2019-01-30 10:22:34 · 5890 阅读 · 4 评论 -
Python爬虫基础之 Requests+Xpath 爬取豆瓣电影(二)
我们要爬取豆瓣电影《肖申克的救赎》(如图1所示)上面的一些信息,网站地址是:https://movie.douban.com/subject/1292052/ 图1代码如下:import requests#from lxml import etreefrom lxml import htmletree = html.etreeurl = 'https://movie.doub...原创 2018-12-21 18:11:08 · 3776 阅读 · 5 评论