python爬虫案例教程(纯代码注解版本)

最新推荐文章于 2024-09-04 10:31:20 发布

杰克船浆

最新推荐文章于 2024-09-04 10:31:20 发布

阅读量334

点赞数 10

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_53204972/article/details/136621147

版权

准备工作
安装所需要的库：
1.win+r输入cmd进入命令行
2.命令行输入pip installer requests回车后等待安装完成
3.完成后再输入pip installer bs4回车等待安装
准备工作完成后直接
上代码：

# ==========爬取豆瓣Top250网页250个电影的中文名=========#
import requests
from bs4 import BeautifulSoup


# =====打印出第一页的所有电影名字
def load_mname():
    all_mname = soup.findAll("span", attrs={"class": "title"})  # 根据网页特点进行筛选定位
    for i in all_mname:
        a = i.string  # 打印内容
        if "/" not in a:  # 根据特点排除掉其他语言的电影名
            print(a)


if __name__ == '__main__':
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/122.0.0.0"
                      "Safari/537.36 Edg/122.0.0.0"}  # 作用：把爬虫程序伪装成浏览器进行访问
    # =======网页特点判断=====
    # 第二页   https://movie.douban.com/top250?start=25&filter=
    # 第三页   https://movie.douban.com/top250?start=50&filter=
    # 第四页   https://movie.douban.com/top250?start=75&filter=
    # 最后一页https://movie.douban.com/top250?start=225&filter=
    # 结论:可以推出规律start=后面的数字里面是网页变量
    for num in range(0, 250, 25):  # range(0,250,25)0和250表示从0到250,25为步进,也就是加25为一次输出
        # print(num)
        response = requests.get(f"https://movie.douban.com/top250?start={num}&filter=", headers=headers).text
        soup = BeautifulSoup(response, 'html.parser')
        load_mname()

有什么不解的可以在评论区一起沟通学习哈

杰克船浆

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫案例教程(纯代码注解版本)

2.命令行输入pip installer requests回车后等待安装完成。3.完成后再输入pip installer bs4回车等待安装。有什么不解的可以在评论区一起沟通学习哈。1.win+r输入cmd进入命令行。
复制链接

扫一扫