爬虫基础学习
文章平均质量分 65
被魔封波封印的可比克
这个作者很懒,什么都没留下…
展开
-
Python Scrapy框架中间件
预处理request和response对象,对headers、cookies进行更换和处理,使用代理ip,或其他定制操作,默认情况下在middlewares.py文件中存储。settings.py中添加USER_AGENT_LIST。返回Response对象:将response返回给引擎。返回Response对象:将response返回给爬虫。middlewares.py中修改User-Agent。返回Request对象:将request交给调度器。返回Request对象:将request交给调度器。原创 2023-06-28 10:59:55 · 131 阅读 · 0 评论 -
Python Scrapy框架基础知识(三)
cookie过期时间很长,能够在过期前获取cookie,或配合其他程序,获取本地cookie。settings.py中修改请求头。原创 2023-06-28 09:48:39 · 75 阅读 · 1 评论 -
Python Scrapy框架基础知识(二)
在itrms.py中,定义数据字段,配合注释提示所需字段,及配合管道类使用。在爬虫文件parse方法中使用。原创 2023-06-28 09:16:51 · 78 阅读 · 1 评论 -
Python Scrapy框架基础知识(一)
定义管道类class 管道(object):# 定义方法# 存入文件# 序列化# 写入文件# 返回数据至引擎return i。原创 2023-06-28 08:39:05 · 89 阅读 · 1 评论 -
Python下验证码处理方式
图片验证码是一种区分用户和计算机的全自动程序防止恶意破解密码、刷票、灌水、刷页。原创 2023-06-27 10:37:49 · 203 阅读 · 0 评论 -
常见的反爬手段和解决策略
原理:特殊化处理,增加数据提取难度解决方法:使用自有字体进行解析或切换手机采集。原创 2023-06-27 10:00:17 · 554 阅读 · 0 评论 -
Selenium 框架学习使用
find_element(s)_by_partial_link_text 根据链接所包含的文本返回元素列表‘’find_element(s)_by_class_name 根据class名返回元素列表。find_element(s)_by_name 根据标签name值返回元素列表。find_element(s)_by_tag_name 根据标签名返回元素列表。find_element(s)_by_link_text 根据文本返回元素列表。原创 2023-06-27 09:07:26 · 69 阅读 · 0 评论 -
Python数据提取学习笔记
bookstore/book[price>35.00]/title 选取bookstore下book元素中title元素,且 price元素值大于35.00。/bookstore/book[last()-1] 选取属性bookstore子元素中倒数第二个book元素。原创 2023-06-27 07:49:42 · 55 阅读 · 0 评论 -
Requests模块学习笔记(一)
匿名代理:无法知道真实IP,但可以得知使用代理。https代理:目标url为https协议。高匿代理:无法知道是否使用代理及真实IP。http代理:目标url为http协议。socks隧道代理:不关心协议种类。发送http请求,获取响应数据。透明代理:可以看到真实IP。原创 2023-06-26 09:04:53 · 69 阅读 · 1 评论 -
爬虫基本情况学习
网络爬虫(又称网络机器人),以模拟客户端,发送网络请求,接收响应,按照制定规则,自动抓取信息的程序(模拟浏览器-->发送请求-->获取响应)理论上,客户端能够做到的,爬虫都可以实现,但也仅能完成客户端所展现的数据。原创 2023-06-26 07:42:49 · 547 阅读 · 1 评论