python3爬取视频原理_Python3爬虫实战:以爬取豆瓣电影为例

本文介绍了Python3爬虫的基本原理和流程,以爬取豆瓣电影《神秘巨星》的信息为例,包括电影名、导演、演员和评分等。通过requests库获取网页,lxml库进行解析,展示如何利用xpath提取数据。最后展示了完整的爬取代码,并对requests库常用方法进行了简要说明。
摘要由CSDN通过智能技术生成

7485a396c661d60fd37b6d82c0815abc.png

爬虫又称为网页蜘蛛,是一种程序或脚本。

但重点在于,它能够按照一定的规则,自动获取网页信息。

爬虫的基本原理——通用框架

1.挑选种子URL;

2.讲这些URL放入带抓取的URL列队;

3.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。

4.分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。

9914d689b465d1c30bdcdbcc8239e10f.png

爬虫获取网页信息和人工获取信息,其实原理是一致的。

如我们要获取电影的“评分”信息

531c8e0ab34f7d3120dd26ceec3d4c86.png

人工操作步骤:

1.获取电影信息的网页;

2.定位(找到)要评分信息的位置;

3.复制、保存我们想要的评分数据。

爬虫操作步骤:

1.请求并下载电影页面信息;

2.解析并定位评分信息;

3.保存评分数据。

爬虫的基本流程

简单来说,我们向服务器发送请求后,会得到返回的页面,通过解析页面后,我们可以抽取我们想要的那部分信息,并存储在指定文档或数据库中,这样,我们想要的信息会被我们“爬”下来了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值