网络爬虫学习前置知识

最新推荐文章于 2024-05-01 23:08:16 发布

Alice_Rabbit

最新推荐文章于 2024-05-01 23:08:16 发布

阅读量434

点赞数

分类专栏： My 10 Grade Studying Note

本文链接：https://blog.csdn.net/Antonio_Salieri/article/details/99692286

版权

My 10 Grade Studying Note 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

本文介绍了Scrapy爬虫的基本使用，包括创建工程和spider模版，编写spider及item pipeline。重点讲解了Scrapy中的Request、Response和Item数据类型。Request包含6个属性和方法，如URL、请求方法、头部信息等；Response包括URL、状态码、头部信息等内容；Item用于存储从HTML中提取的信息，类似字典。还提及了提取信息的工具如Beautiful Soup、Lxml、正则表达式和XPath。最后，概述了Requests库的主要方法和异常处理。

摘要由CSDN通过智能技术生成

Scrapy爬虫的使用
步骤

创建一个工程和spider模版
编写spider
编写item pipeline模版
进行优化策略的配置
Scrapy爬虫的数据类型：
Request
包含6个属性和方法
.url Request对应的请求URL地址
.method 对应的请求方法，‘GET’ ‘POST’等
.headers 字典类型风格的请求头
.body 请求内容主题，字符串类型
.meta 用户添加的扩展信息，在Scrapy内部模块间传递信息使用
.copy() 复制该请求
Response
.url Response 对应的URL地址
.status HTTP状态码，默认是200
.headers Response 对应的头部信息
.body Response 对应的内部信息，字符串类型
.flag 一组标记
.request 产生Response 类型对应的Request对象
.copy() 复制该响应
Item
是从HTML页面提取的信息内容
由Spider生成，由Item Pipeline 处理
类字典类型
提取网络相关信息后，将生成键值对

提取信息的方法

Beautiful Soup
Lxml
re
XPath Selector
css selector
使用格式：

.css (‘a::attr (href)’). extract() (‘标签名称::attr(标签属性)’ r = request.get(url) 构建向服务器请求资源的Request对象返回一个包含服务器的Response对象，包含从服务器返回的所有相关资源

request.get(url, params = None, **kwargs)
url：拟获取页面的url链接
Params：utl中的额外参数，字典或者字节流方式
**kwargs：12个控制访问的参数

requests为Response对象，包含爬虫返回的全部内容
Response 对象的属性

r.status_code
HTTP请求的返回状态，200表示链接成功，404表示失败
r.text
HTTP 响应内容的字符串形式，即，url对应的页面内容
r.encoding
从HTTP headers中猜测的响应内容编码方式
如果header中不存在charset，则认为编码为ISO-8859-1，但这种编码不能解析中文
r.apparent_encoding
从网页内容中分析出响应方式编码方式
r.content
HTTP响应内容的二进制形式

理解Requests库的异常