爬虫(request + Scrapy)
文章平均质量分 95
python实现爬虫///////////////////////////
RStanwen
这个作者很懒,什么都没留下…
展开
-
爬虫概述论
目录一:windows环境下进入虚拟环境二: requests模块的基本使用2.1: requests模块请求对象:2.2: requests模块的响应对象:2.3: requests模块发送post请求:2.4:requests模块使用代理ip:2.5: requests模块处理Cookie:2.6: 忽略CA证书的认证2.7: 超时参数设置:2.8:刷新重试:三: 数据的提取3.1:了解返回的数据类型:3.2:json与python类型的转换:3.3: 使用jsonpath提取数据:3.4: 使用Bea原创 2021-03-03 18:18:03 · 3459 阅读 · 2 评论 -
爬虫---Scrapy--管道--中间件--日志和配置文件
目录一:管道的使用:1:案例:抓取马场老师信息:2:数据存储到MongoDB数据库中:二:crawlspider爬虫:三:scrapy中间件:四:scrapy的日志信息与配置:五:中国图书网爬虫一:管道的使用:1: process_item(self,item,spider):实现对item的数据处理。2:open_spider(self, spider):在爬虫开启的时候仅执行一次。3:close_spider(self, spider):在爬虫关闭的时候仅执行一次。1:案例:抓取马场老师信原创 2021-02-16 16:15:02 · 606 阅读 · 1 评论 -
Scrapy框架----数据建模与请求
目录一: 建立数据模型:二:Scrapy如何实现翻页请求:1:前端网页分析2:编写代码:三:scrapy.Request参数:一: 建立数据模型:1:定义数据模型的作用:提前规划好要爬取那些数据。2:定义数据模型的位置:items.py1:在items.py文件中自定义要提取的字段:import scrapyclass MyspiderItem(scrapy.Item): name = scrapy.Field() level = scrapy.Field() tex原创 2020-11-27 14:23:46 · 456 阅读 · 0 评论 -
Scrapy框架---基础入门
目录一:Scrapy框架的执行流程:二:Scrapy的三个内置对象:三:Scrapy入门使用:1: 环境初始化:2: Scrapy框架的熟悉:四:爬取马场网站上的信息:五:整个流程:一:Scrapy框架的执行流程:1: 爬虫模块指定起始的url,经过爬虫中间件,交给引擎。2:由Scrapy框架(引擎模块)创建出请求对象,将请求对象传入调度器(队列)。3:引擎模块,在调度器模块取出请求对象,经过下载中间件,交给下载器。4:下载器,下载完成后,将响应对象经过下载中间件,交给引擎模块。5:引擎模块经原创 2020-11-26 16:13:36 · 521 阅读 · 1 评论 -
爬虫----js逆向/js反解析
一:js反解析思路:1:抓包先找到请求url:2:分析请求要携带的参数:请求头,参数。3:抓包分析哪些参数是改变的,哪些是不变的。4:分析参数的生成过程—在js中寻找参数的生成过程。案例:分析有道翻译:1: 找到请求的url:2:分析请求要携带的参数:请求头,参数。先分析出最常见的要携带的请求头参数:3:分析请求参数,哪些是改变的:4:在js中搜索,salt或者sign返回的地方:5:找到代码位置,分析js代码:按住ctrl + F :在js中搜索。(图中错了,时间戳是原创 2020-11-25 12:26:34 · 2423 阅读 · 0 评论 -
爬虫----反爬与反反爬
目录一:反爬:1: 反爬的三个方向:2:基于身份识别进行反爬:3:常见基于爬虫行为进行反爬4:常见基于数据加密进行反爬:二:反反爬:一:反爬:1: 反爬的三个方向:1:基于身份识别进行反爬。2:基于爬虫行为进行反爬。3:基于数据加密进行反爬。2:基于身份识别进行反爬:3:常见基于爬虫行为进行反爬4:常见基于数据加密进行反爬:二:反反爬:...原创 2020-11-25 10:39:12 · 3443 阅读 · 0 评论 -
爬虫---selenium的使用
目录一:selenium的基本用法:1:控制浏览器截图:2:无界面浏览器驱动:PhantomJS3:模拟百度搜索:4:driver对象的常用属性和方法:5:driver对象获取标签元素的方法:6:对标签元素的操作:二:selenium的高级用法:1:掌握 selenium控制标签页的切换2:掌握 selenium控制iframe的切换3:掌握 利用selenium获取cookie的方法4:掌握 页面等待4.1: 强制等待:4.2:隐式等待:4.3:显示等待:4.4:手动实现页面等待:5:掌握 seleniu原创 2020-11-23 18:15:48 · 7319 阅读 · 6 评论 -
爬虫---高性能爬虫
目录一:单线程爬虫:1:新浪图片NBA标题和图片的爬取:二:多线程爬虫:1: 回顾多线程的方法:2:回顾队列的使用:3:多线程爬虫的执行流程:4:糗事百科多线程爬虫:三:多进程爬虫:一:单线程爬虫:1:新浪图片NBA标题和图片的爬取:"""抓取的网站链接:http://api.slide.news.sina.com.cn/interface/api_album.php?activity_size=198_132&size=img&ch_id=2&sub_ch=k&"原创 2020-11-23 11:51:10 · 495 阅读 · 2 评论 -
爬虫---数据的提取
目录一:requests模块1:cookieJar与字典的转换:2:证书认证问题:3:设置超时时长:4:一:requests模块1:cookieJar与字典的转换:1:requests.utils.dict_from_cookiejar():将cookiedir类型转换成字典类型。2:requests.utils.cookiejar_from_dict():将字典类型转换成cookiejar类型。import requests"""requests获取的cookie是个cookieJar,原创 2020-11-22 20:02:10 · 972 阅读 · 0 评论 -
爬虫---requests模块简单使用
目录一: requests模块的基本使用:二:response相应的其他常用属性和方法:一: requests模块的基本使用:response.text存在编码问题,原因是requests底层会自己推到编码,然后进行解码,如果推导的和编码不一致就会出现编码问题,需要提前指定:response.encoding = “utf-8”response.content获取的是二进制类型,需要自行转换:response.content.decode(‘gbk’)import requestsurl =原创 2020-11-19 20:57:32 · 542 阅读 · 0 评论