Python爬虫，实现爬取静态网站数据（小白入门）

最新推荐文章于 2024-05-12 16:44:53 发布

栗子君blog

最新推荐文章于 2024-05-12 16:44:53 发布

阅读量4.8k

点赞数 8

分类专栏： Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/javaargs/article/details/104369480

版权

简言：

python最近越来越火了，我也跟着潮流学习了一把，今天写的就是教大家如何通过 简简单单 的二十几行代码爬取豆瓣前250名的高分电影名。
在这里插入图片描述

第一步:导入模块

导入我们所需要的模块，这里我们使用到的有三大模块
(导入的模块都是需要预先安装的，不知道如何安装的朋友可先移步到链接: 模块安装.）

requests:用于访问网络资源
lxml:用于网页的解析
BeatifulSoup:通过解析文档为用户提供需要抓取的数据

import requests
import lxml
from bs4 import BeautifulSoup
from lxml import etree

第二步:设置请求路径

这里我们设置我们需要请求的网页路径，本次爬取的网页是豆瓣前250高分电影排行榜
链接: https://movie.douban.com/top250.

url = 'https://movie.douban.com/top250'

第三步:设置请求头

因为部分网页是不能直接通过爬虫去爬取数据的，这里我们设置请求头，来模拟我们是通过浏览器去进行的网页访问。

hread = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
        'Referer': 'https://movie.douban.com/'
}

我们可以通过打开浏览器的任意网页，按F12后查看NetWork，刷新网页后，点击任意一 .js 文件查看自己浏览器的请求头。
在这里插入图片描述

第四步:请求网页

这里的hread就是我们刚刚设置的请求头。

response = requests

最低0.47元/天解锁文章

栗子君blog

关注

8
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫，实现爬取静态网站数据（小白入门）

简言：python最近越来越火了，我也跟着潮流学习了一把，今天写的就是教大家如何通过简简单单的二十几行代码爬取豆瓣前250名的高分电影名。第一步:导入模块导入我们所需要的模块，这里我们使用到的有三大模块(导入的模块都是需要预先安装的，不知道如何安装的朋友可先移步到链接: 模块安装.）requests:用于访问网络资源lxml:用于网页的解析Beatif...
复制链接

扫一扫