爬虫 1 大致流程

一般来说,爬虫大致分为几个流程:
1. 准备工作
2. 获取数据
3. 解析内容
4. 保存数据

爬虫的本质,其实就是让脚本程序模拟认为操作,通过浏览器去访问网页(网站),对于网站服务器来说,人为的通过浏览器访问和通过脚本程序爬虫没有太大区别(反爬虫这些我还没学,所以这里可能说的有点笼统,这里只是说说我目前的理解)。不过不同的是,人为访问网页,获取的是一个网页(人眼看到的页面);而脚本获取的信息,是整个页面的源码(chrom浏览器按f12),可以对这些信息进行更加细致的分析。

这篇博客先来说说准备工作包含的大致工作:
1. URL分析。即发现所爬取网页链接的规律,比如下面这个例子:

在这里插入图片描述

2. 浏览器给服务器发送信息(浏览器f12->Network->Headers)格式分析
User-Agent(浏览器的身份):

简单的爬虫中,必须掌握User-Agent的语义和格式(这个信息体现了用户所用的浏览器版本信息),如下图所示:
在这里插入图片描述

cookie(登录的身份):
学会如何存储、读取cookie。
如果想爬取 登录之后才能看到的网页信息,就必须学会操作cookie。
在这里插入图片描述

在获取这些信息后,需要进行分析,不过多数情况下不需要人为编写细致的代码进行分析,python有很多与爬虫网页分析有关的库,可以直接用,非常方便(突然回想起学C的日子,什么都得自己写,hhh)。

小知识点:
python程序可以设置一个入口,也就是整个程序第一个执行的语句,也就是执行的起点,这样可以让我们的程序结构和执行顺序更加清晰。下面这句话就是程序的入口:
在这里插入图片描述

爬虫需要的主要的包如下图所示:

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值