Python 爬虫学习之路第一天

最新推荐文章于 2023-03-07 17:08:39 发布

代码输入中...

最新推荐文章于 2023-03-07 17:08:39 发布

阅读量273

点赞数 1

文章标签： python 爬虫学习开发语言数据分析

本文链接：https://blog.csdn.net/m0_59485658/article/details/126771392

版权

本文记录了作者学习Python爬虫的第一步，通过编写爬虫程序抓取电影网站的数据，包括电影名称、评分、类型、简介、封面链接和上映时间。首先介绍爬虫的基本概念，然后展示了如何获取页面HTML，解析列表页获取详情页URL，接着爬取详情页并提取所需信息，最后以JSON格式保存数据。文章提供了两种爬取方式，包括单线程和多进程，并邀请读者一起探讨学习。

摘要由CSDN通过智能技术生成

算法太难，直接来学爬虫

第一个爬虫程序

爬取这个网站的所有电影名称，评分，类型，内容简介，封面（只是一个网址）和上映时间

Scrape | Movie

网站在上面

所谓爬虫，就是对于一个网站的爬取，我们先关注url，对于这个网站分为两个，列表页和详情页，因此需要函数去分别提取这两个页的url，所对应的html代码，并且去解析它，最后得到所要的结果。

因此第一个我们要做的就是对于页面的爬取，以下是代码

# 页面爬取方法
def scrape_page(url):
    logging.info('scraping %s...' , url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        logging.error('get invalid status code %s while scraping %s', response.status_code, url)
    # 异常处理
    except requests.RequestException:
        # exec_info 可以打印出错误信息
        logging.error('error occurred while scraping %s' , url , exec_info = True)

这个函数所实现的就是，对于一个网址，去爬取它的html代码，我们直接使用get请求即可，如果状态码是200，那么直接返回所对应网址的html代码，否则输出错误日志

然后需要的就是，对于一种网页进行爬取 ，先定义列表页

# 列表页的爬取方法
# page 接受page参数
def scrape_index(page):
    # https://ssr1.scrape.center/page/2
    index_url = f'{BASE_URL}/page/{page}'
    return scrape_page(in