Python爬虫,实现爬取静态网站数据(小白入门)

简言:

python最近越来越火了,我也跟着潮流学习了一把,今天写的就是教大家如何通过 简简单单 的二十几行代码爬取豆瓣前250名的高分电影名。
在这里插入图片描述

第一步:导入模块

导入我们所需要的模块,这里我们使用到的有三大模块
(导入的模块都是需要预先安装的,不知道如何安装的朋友可先移步到链接: 模块安装.)

  • requests:用于访问网络资源
  • lxml:用于网页的解析
  • BeatifulSoup:通过解析文档为用户提供需要抓取的数据
import requests
import lxml
from bs4 import BeautifulSoup
from lxml import etree
第二步:设置请求路径

这里我们设置我们需要请求的网页路径,本次爬取的网页是豆瓣前250高分电影排行榜
链接: https://movie.douban.com/top250.

url = 'https://movie.douban.com/top250'
第三步:设置请求头

因为部分网页是不能直接通过爬虫去爬取数据的,这里我们设置请求头,来模拟我们是通过浏览器去进行的网页访问。

hread = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
        'Referer': 'https://movie.douban.com/'
}

我们可以通过打开浏览器的任意网页,按F12后查看NetWork,刷新网页后,点击任意一 .js 文件查看自己浏览器的请求头。
在这里插入图片描述

第四步:请求网页

这里的hread就是我们刚刚设置的请求头。

response = requests
  • 8
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值