python爬虫获取电影天堂中电影的标题与下载地址,并用正则表达匹配电影类型

该博客介绍如何使用Python爬虫从电影天堂的列表页面获取每个电影的标题和下载地址,并通过正则表达式匹配电影类型。通过源代码分析,展示了爬虫如何逐页抓取信息,使用XPath语法寻找标签,并在子页面中提取所需数据。最终,通过正则表达式过滤出特定类型的电影,如‘悬疑’。
摘要由CSDN通过智能技术生成

在电影天堂的列表页面,爬取每个链接的子页面中的,电影标题以及下载地址,并用正则表达式匹配出想要的电影类型

源代码获取:

https://github.com/akh5/Python/blob/master/movieparise.py
在这里插入图片描述
用爬虫程序我们做到的效果就是从分类页面,跳转到每一个电影的页面内爬取我们想要的信息并存储在数据字典内

这里只储存 标题 和下载连接
在这里插入图片描述在这里插入图片描述
实现的结果如下:
在这里插入图片描述

from lxml import etree
import requests
import re
BASE_DOMAIN = 'http://dytt8.net'

headers = {
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
        }
```python
from lxml import etree
import requests
import re
BASE_DOMAIN = 'http://dytt8.net'

headers = {
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
        }

先定义一个根url 方便找到<a>内的href属性后跳转页面,
Headers内是一个存储头部的数据字典,来伪装爬虫程序

主函数:

def spider():
    base_url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"
    movies = []
    url = base_url
    detail_urls = get_detail_urls(url)
    for detail_url in detail_urls:
        movie = parse_detail_page(detail_url
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值