python 请求分析及多提取器 提取数据

本文详细介绍了如何使用Python进行数据提取,包括requests请求分析、正则表达式、BeautifulSoup CSS选择器、XPath选择器、Pyquery以及Scrapy/parsel混合提取器,针对豆瓣电影Top100进行实战演示,总结了各种提取方法的特点和使用场景。
摘要由CSDN通过智能技术生成

豆瓣电影的多方法解析

豆瓣top100

本项目主要是数据提取的练习,提供了5种数据提取的方式.

1. 分析网页 # 需要的数据请求地址分析

2. 正则提取 # 正则提取所须数据

3. Css选择器提取 # 利用BeautifulSoup4 进行提取

4. Xpath选择器提取 # 利用lxml的etree模块进行xpath提取

5. jQuery提取 # 有前端的知识的朋友应该很熟悉,利用的是pyquery模块,节点选择语法与jQuery一致

6. Scrapy/parsel 混合提取器 # 利用scrapy的Selector模块进行混合提取

7. 总结

完整代码

1. 分析网页,确认爬取目标的数据类型。

首页

  • 定位需要的数据位置,查看爬取目标。
    数据源
    由图可得,我们需要的数据分别为,[‘海报’, ‘电影名’, ‘上映日期’, ‘演员’, ‘评分’, ‘评价人数’]
  • 查看请求,分析数据来源请求(F12 >> network 打开请求界面,如下图)

抓包

  • 确认数据请求来源(Ctrl + F 搜索: 辛德勒)
    定位请求
    上图可知,该请求只有一个,所以就能轻松的确定来源拉!
  • 查看headers,分析请求报文
    在这里插入图片描述
    分析结果如图,所以我们可以得出以下结论:
信息 结果
请求地址 https://movie.douban.com/tag/Top100
请求方法 Get
响应格式 text 文本
编码 UTF-8

2. 利用requests进行请求测试

requests.get
定义请求函数,get_data
返回text数据

模块导入

>>> import requests
>>> from requests.exceptions import HTTPError
def get_data(url):

    response = requests.get(url)
    if response.status_code == requests.codes.ok:  # 检测状态码
        return response.text  # 返回响应的文本信息
    else:
        response.raise_for_status()  # 4xx 5xx 时,引出错误 代替 raise requests.exception.HTTPError

 url = "https://movie.douban.com/tag/Top100"
data = get_data(url)  # 获取数据
data_res = {
   }  # 存储数据的初始化字典
data # 查看数据
<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-windows ua-webkit">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
......

3. 提取数据

  • 正则提取
  • BeautifulSoup 提取
  • Xpath 提取
  • pyquery 提取
  • scrapy 混合提取

1. 正则提取

  • 观察数据位置
    正则数据位置

导入模块

>>> import re

提取 海报地址以及电影名称

通过查看该请求的响应内容快速进行复制匹配,如下图搜索:
正则获取数据
用到的匹配规则提示:

  • “.” 表示任意非空格换行等字符
  • “.*?” 表示贪婪匹配,最少匹配一次
  • “()” 表示提取()中的内容
  • “\w” 表示正常字符,比如英文字母,中文等常见文字
  • “.+” 表示至少匹配一次任意字符
>>> # 设置提取表达式 
>>> poster_pattern = re.compile(r"""<a class="nbg" href=".*?"  title=".*?">.*?<img src="(.*?)" width="75" alt="(.*?)" class=""/>.*?</a>""", re.S)  # 海报的正则表达式
>>> movie_name_pattern = re.compile(r""" <div class="pl2">.*? <a href=".*?"  class="">.*?(\w+).*?<span style="font-size:13px;">(.*?)</span>.*?</a>""", re.S)  # 电影名正则表达式
>>> poster_res = re.findall(poster_pattern, data)  # 获取所有匹配结果
>>> movie_name_res = re.findall(movie_name_pattern, data)
>>> poster_res, movie_name_res
......
('https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1910902213.jpg',
'低俗小说'),
('https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1665997400.jpg',
'美丽心灵')],
[('辛德勒的名单', '舒特拉的名单(港) / 辛德勒名单'),
('狩猎', '谎言的烙印(台) / 诬网(港)'),
('美国往事', '四海兄弟(台) / 义薄云天(港)'),
......

查看结果好像没什么问题, 我们用长度比较来看看数量是否一致

>>> len(poster_res) == len(movie_name_res)
True

长度一致,看来匹配规则在这里没问题
我们将提取到的数据存储到我们的数据结构data_res

for poster, movie_name in zip(poster_res, movie_name_res):  
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值