python：网络爬虫之遍历单个域名获取电影名称及年份

最新推荐文章于 2024-07-01 17:12:36 发布

番茄牛腩不吃番茄

最新推荐文章于 2024-07-01 17:12:36 发布

阅读量710

点赞数

分类专栏： python网络爬虫文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/LIFENG0402/article/details/117157278

版权

本文介绍了使用Python进行网络爬虫，通过递归方式遍历单个域名获取电影名称和年份。文章中展示了如何访问URL、解析页面、存储和处理数据，以及调用函数运行爬虫的过程。虽然代码仍有优化空间，如异常处理，但希望能为读者提供参考。

摘要由CSDN通过智能技术生成

web爬虫本质上就是一种递归，首先获取一个url对应的页面内容，检测这个页面寻找另一个url，再获取该url对应的网页内容，并不断循环这一过程。这也就是代码在运行的时候是那么慢的原因了...

抱歉，强行塞了一个开头....

前置：需要引入的包

import re
import ssl
import urllib.request
from bs4 import BeautifulSoup

示例1：访问url并解析后返回

def visit_page(url):
    """
    解析主url的函数，并返回BeautifulSoup解析后的html
    :param url:
    :return:
    """
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
    url_obj = urllib.request.Request(url, headers=header