爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂

本文通过实例讲解如何使用Python的re模块解析网页,定位到2021新片精品部分,并解决可能出现的网页乱码问题,进而提取子页面的链接地址,获取电影下载链接。
摘要由CSDN通过智能技术生成

1. 【案例】re屠戮电影天堂

1.目的:

  1. 定位到2021新片精品
  2. 从2021新片精品中提取到子页面的链接地址
  3. 请求子页面的链接地址,拿到我们想要的下载地址…

1. 定位到2021新片精品

我想得到这里的电影的下载地址。

在这里插入图片描述
在这里插入图片描述

1. 出现错误???

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 网页乱码???

python抓包回来,默认进行utf8编码了,但是 如果网页的编码不是utf8的话,就会出现这样的乱码

在这里插入图片描述

网站的编码通常会进行声明,

在这里插入图片描述
然后我们进行换一下编码就好了
在这里插入图片描述

我们的唯一标识就是 2021新片精品
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.从2021新片精品中提取到子页面的链接地址

在这里插入图片描述

在这里插入图片描述

3.请求子页面的链接地址,拿到我们想要的下载地址…

# -*- coding: utf-8 -*-
# @Time: 2021/5/5 14:05
# @Author: adam
# @File: demo2.py

import csv
import re
import requests
header = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值