Scrapy 爬虫框架学习 DAY2

最新推荐文章于 2024-07-12 17:59:12 发布

不安分实验室

最新推荐文章于 2024-07-12 17:59:12 发布

阅读量110

点赞数

分类专栏： Scrapy 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45941367/article/details/115256550

版权

Scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

昨天我们初识Scrapy爬虫框架，今天来具体聊聊爬虫的具体过程。

我们按照步骤来一一描述：

1、发送请求

我们需要对我们要爬的第一个URL发送我们的请求，以获取其返回的响应。在这个过程中，我们往往关注返回内容的某一部分，而不是全部。

比如：

（1）请求方法：常见的方法有GET方法和POST方法。

GET：从指定的资源中请求数据，查询字符串放在URL中发送。

POST：向指定资源提交要被处理的数据，查询字符串放在请求体中发送。

（2）请求URL：指的是目标网页的统一资源定位符。

（3）必要的请求信息，如：

1、User-Agent：包含发出请求的用户的信息，设置User-Agent常用于反爬虫的网页。这个时候我们需要伪装自己，是一个浏览器，正常在访问网页。

2、Cookie：包含先前请求的内容，设置Cookie来模拟登录。

2、获取响应

我们需要获取URL返回的响应，从而提取我们需要的信息。

（1）状态码：一些返回的状态，如：404等等。

（2）响应数据：我们需要的信息部分。

3、解析网页

解析网页一般有两件事：1、提取链接 2、提取资源

（1）提取链接

我们希望获取待解析网页上的其他网页的链接，网络爬虫需要给这些链接发送请求，直到全部完成。

（2）提取资源

常见的资源有：

1、文本类：HTML、JSON；

2、图片：JPG，PNG;

3、视频：AVI等。

不安分实验室

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Scrapy 爬虫框架学习 DAY2

11
复制链接

扫一扫

专栏目录

不安分实验室 CSDN认证博客专家 CSDN认证企业博客

码龄5年

26: 原创

39万+: 周排名

31万+: 总排名

3万+: 访问

: 等级

756: 积分

130: 粉丝

155: 获赞

62: 评论

375: 收藏

私信

关注

热门文章

分类专栏

最新评论

ARM：嵌入式系统之硬件总复习
m0_64874224: cjj你在这儿嘎哈呢
ARM：嵌入式系统之硬件总复习
xingyixing: 师兄，有去年嵌入式期末卷子吗
ARM：嵌入式系统之硬件总复习
jiajiajia433: 金宝学生前来观摩
ARM：嵌入式系统之硬件总复习
m0_62892348: ahnu前来打卡
ARM：嵌入式系统之硬件总复习
qq_39977732: ATPCS/AAPCS： 1.r0-r3用来给子程序传参，返回前无需恢复； 2.r4-r7用来保存局部变量，返回时需要恢复； 3.r12用作子程序保存sp，记作ip； 4.r13用作数据栈指针，记作sp，必须恢复； 5.r14用作连接寄存器，记作lr，若保存了返回地址，可以用作其他用途； 6.r15是程序寄存器，记作pc，不可用于其他用途。异常处理： 1.将pc-4的值保存到相对应异常的lr中 2.将cpsr保存到相对应的异常的spsr 3.自动设置相对的异常的cpsr模式位 4.跳转到相对应异常向量地址执行指令异常返回步骤： 1.通过堆栈恢复通用寄存器 2.恢复cpsr 3.恢复pc，以跳转到中断前的程序的中断处继续执行片外设备中断：初始化片外设备；初始化片外设备中断控制器；初始化vic中断控制器；开cpu中断。中断服务程序编程：处理中断；清片外设备中断，向pend中写1清0；清vic中断，向vicaddress写任意值；中断返回。 timer0： 1.初始化时钟（分频器，选频器） 2.初始化tcntb，tcmpb 3.停止自动装载，使能手动更新 4.使能自动装载，清除手动更新，启动定时器

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不安分实验室 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。