python爬虫
python爬虫
Studying!!!
Stay hungry, stay foolish!
展开
-
scrapy框架之全站数据的爬取
全站数据的爬取有俩种方式:1.基于spider的全站数据爬取:需要自己进行分页操作,并进行手动发送请求2.基于CrawlSpider ,今天主要讲解基于CrawlSpider 的爬取方式CrawlSpider是Spider的一个子类:使用流程: 创建工程和切入工程下和Spider操作一样 重点是创建一个爬虫文件命令如下scrapy genspider -t crawl spidername www.xxx.com新增内容有俩方面:1.链接提取器: 作用:根据指定的规则(allo原创 2020-07-12 18:41:29 · 1287 阅读 · 0 评论 -
requests模块之爬取豆瓣电影
今天写了这么个程序,但是一直出错,求大佬帮忙解决!!import requestsimport jsonif __name__ == "__main__": url = 'https://movie.douban.com/j/search_subjects' # 指定URL params = { 'type':'movie', 'tag':'%E5%...原创 2020-05-04 10:13:28 · 367 阅读 · 1 评论 -
scrapy结合redis进行增量式爬虫
增量式爬虫:顾名思义就是以前爬取过的不在爬取,未爬取过的进行爬取。需求:爬取https://www.4567kan.com/中的动作电影的标题和简介分析:指定url, 创建工程,cd进入工程,创建爬虫文件,链接提取器提取页码链接,规则解析器进行规则制定,数据解析,持久化存储,其实都是一样的,重点在于怎么只爬取更新的电影。核心:检测电影详情页的url之前是否爬取过将爬取过的电影详情页url存储存储到redis的set数据结构中(可以自动去重)(redis数据库表的清空命令:登录客户端后:flush原创 2020-07-13 10:14:54 · 677 阅读 · 0 评论 -
xpath爬取相应网址中的全部城市
本次爬取https://www.aqistudy.cn/historydata/中全部城市信息。代码和上一次的大同小异,主要是有一处需要重点提一下。a_list =tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')如果有俩出标签需要一起用可以用 | 符号,可以省去很多步骤,避免重复书写。下面上代码。import requestsfrom lxml import etreeif原创 2020-05-13 14:17:59 · 267 阅读 · 0 评论 -
xpath爬取4K风景图片
接上一条博客,再发几个实战例子,更好的熟悉一下xpath的使用。爬取 http://pic.netbian.com/4kfengjing 下的4K风景图上代码```pythonimport requestsimport osfrom lxml import etreeif __name__=="__main__": if not os.path.exists('./4K风景'): os.mkdir('./4K风景') headers = {原创 2020-05-13 13:52:07 · 208 阅读 · 0 评论 -
requests模块进行人人网模拟登陆
今天代码是对对人人网进行模拟登录点击登录按钮之后会发起一个POST请求POST请求中会携带登陆之前录入的登陆信息(用户名,密码,验证码。。。)验证码特性:每次都会动态变化print(response.status_code),查看相应状态码,如果是200,说明模拟登陆成功如果出错一定是url和携带的参数出错上代码import requestsfrom lxml import etreefrom hashlib import md5#超级鹰示例代码class Chaojiying_原创 2020-05-25 11:18:05 · 378 阅读 · 0 评论 -
爬虫之验证码识别--古诗文网
今天做的案例古诗文网的验证码识别反爬机制:验证码。 识别验证码图片中的数据,用于模拟登陆操作。我用的是超级鹰的第三方自动识别验证码。软件注册之后,登录,微信公众号关注超级鹰,可以免费获得1000题分。使用方法:用户中心>>软件ID 生成一个替换 96001,本地图片文件路径来替换 a.jpg 即可。爬取步骤:首先获取古诗文网我的 整张页面数据,然后解析页面中的验证码图片,并下载存储。接着在超级鹰官网中开发文档选择python语言,下载示例代码,并根据上述的使用方法修改相关代码即可。原创 2020-05-23 17:06:01 · 764 阅读 · 1 评论 -
xpath爬取58的二手房信息
首先先介绍一下基础知识。数据解析之xpath:最常用也是最便捷高效的一种解析方式,通用性强。-xpath解析原理:- 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中- 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获-环境的安装:- pip install lxml-如何实例化一个etree对象:from lxml import etree- 1.将本地的HTML文档中的源码数据加载到etree对象中:etree.pars原创 2020-05-12 22:16:21 · 809 阅读 · 1 评论 -
利用scrapy框架进行数据的爬取
首先介绍一下什么是scrapy框架:爬虫中封装好的一个明星框架。代表性功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。其内部已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。框架安装环境安装:- mac或者linux直接pip install scrapy- windows:- pip insta..原创 2020-07-09 12:45:26 · 1721 阅读 · 0 评论 -
用bs4-Beautifulsoup爬取三国演义的小说章节内容
今天使用Beautifulsoup爬取了http://www.shicimingju.com/book/sanguoyanyi.html网页上的三国演义小说内容。-bs4数据解析原理: -1.实例化一个BeautifulSoup,并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取-环境安装 -pip install bs4 -pip install lxml(是一个解析器,bs4和xpath都会用到)-如原创 2020-05-12 22:10:36 · 1098 阅读 · 0 评论 -
利用requests模块爬取百度翻译
话不多说,直接上代码,不懂得可以参考一下我发的上一篇文章。本次推荐大家使用火狐浏览器,因为我用了2345 和 win10自带的浏览器,运行成功后爬取不到东西。import requestsimport jsonif __name__ == '__main__': #1. 指定url post_url = 'https://fanyi.baidu.com/sug' ...原创 2020-05-03 10:09:11 · 706 阅读 · 1 评论 -
scrapy框架之分布式爬虫
概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取作用:提升爬取数据的效率如何实现分布式?安装一个scrapy-redis的组件(使用的是redis数据库)原生的scrapy是不可以实现分布式爬虫的,必须让scrapy结合着scrapy-redis组件一起实现分布式爬虫为什么原生的scrapy框架不能实现分布式爬虫 ?1.调度器不可以被分布式机群共享2.管道不可以被分布式机群共享scrapy-redis组件作用:可以给原生的scrapy框架提供可以共享的调度器.原创 2020-07-12 18:57:23 · 474 阅读 · 0 评论 -
selenium的各种使用,以及模拟12306登录
selenium 与 爬虫有何关系?- 便捷的获取网站中动态加载的数据- 便捷的进行模拟登陆什么是selenium?基于浏览器自动化的模块selenium使用流程:安装selenium下载一个浏览器的安装驱动(例如谷歌)下载路径:http://chromedriver.storage.googleapis.com/index.html驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_same/article/details/5189667.原创 2020-06-13 18:17:40 · 361 阅读 · 0 评论 -
xpath爬取站长素材中的免费简历
今天爬取的是站长素材中的免费素材。先讲一下流程,首先获取响应数据这些就不讲了,获取完之后进行数据解析,完成之后下一步就是对详情页下载地址出再次进行数据解析,然后保存数据,光说可能讲不清楚,那我们就开始上代码,实操一下。import requestsimport osimport randomfrom lxml import etreeif __name__=='__main__': if not os.path.exists('./jianlisucai'): os.mk原创 2020-05-14 12:36:49 · 586 阅读 · 0 评论 -
数据解析-正则表达式-爬取糗图百科上的图片
数据解析原理概述:解析的局部的文本内容都会在标签文本之间或者标签对应的属性中进行存储。具体步骤为下面俩步。 -1.进行指定标签的定位-2.标签或者标签对应的属性中存储的数据值进行提取(解析)数据解析主要是用于聚焦爬虫,那么有三种方法,1.正则表达式 2. bs4 3.xpath今天主要是用正则表达式爬取糗事百科中的图片。相比于之前我发的文章来说,...原创 2020-05-07 19:46:16 · 868 阅读 · 0 评论