python 请求分析及多提取器提取数据

最新推荐文章于 2023-11-17 14:24:40 发布

dustyposa

最新推荐文章于 2023-11-17 14:24:40 发布

阅读量899

点赞数 2

分类专栏： spider 文章标签： xpath scrapy 爬虫 python python3

本文链接：https://blog.csdn.net/dustyposa/article/details/100511435

版权

本文详细介绍了如何使用Python进行数据提取，包括requests请求分析、正则表达式、BeautifulSoup CSS选择器、XPath选择器、Pyquery以及Scrapy/parsel混合提取器，针对豆瓣电影Top100进行实战演示，总结了各种提取方法的特点和使用场景。

摘要由CSDN通过智能技术生成

豆瓣电影的多方法解析

豆瓣top100

本项目主要是数据提取的练习,提供了5种数据提取的方式.

1. 分析网页 # 需要的数据请求地址分析

2. 正则提取 # 正则提取所须数据

3. Css选择器提取 # 利用BeautifulSoup4 进行提取

4. Xpath选择器提取 # 利用lxml的etree模块进行xpath提取

5. jQuery提取 # 有前端的知识的朋友应该很熟悉,利用的是pyquery模块,节点选择语法与jQuery一致

6. Scrapy/parsel 混合提取器 # 利用scrapy的Selector模块进行混合提取

7. 总结

完整代码

1. 分析网页，确认爬取目标的数据类型。

打开目标url, 定位数据位置

定位需要的数据位置，查看爬取目标。

由图可得，我们需要的数据分别为，[‘海报’, ‘电影名’, ‘上映日期’, ‘演员’, ‘评分’, ‘评价人数’]
查看请求，分析数据来源请求（F12 >> network 打开请求界面，如下图）

确认数据请求来源(Ctrl + F 搜索: 辛德勒)

上图可知，该请求只有一个，所以就能轻松的确定来源拉！
查看headers，分析请求报文

分析结果如图，所以我们可以得出以下结论：

信息	结果
请求地址	https://movie.douban.com/tag/Top100
请求方法	Get
响应格式	text 文本
编码	UTF-8

2. 利用requests进行请求测试

requests.get
定义请求函数，get_data
返回text数据

模块导入

>>> import requests
>>> from requests.exceptions import HTTPError

def get_data(url):

    response = requests.get(url)
    if response.status_code == requests.codes.ok:  # 检测状态码
        return response.text  # 返回响应的文本信息
    else:
        response.raise_for_status()  # 4xx 5xx 时,引出错误 代替 raise requests.exception.HTTPError

 url = "https://movie.douban.com/tag/Top100"
data = get_data(url)  # 获取数据
data_res = {
   }  # 存储数据的初始化字典
data # 查看数据

<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-windows ua-webkit">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
......

3. 提取数据

正则提取
BeautifulSoup 提取
Xpath 提取
pyquery 提取
scrapy 混合提取

1. 正则提取

观察数据位置

导入模块

>>> import re

提取海报地址以及电影名称

通过查看该请求的响应内容快速进行复制匹配,如下图搜索:
正则获取数据
用到的匹配规则提示:

“.” 表示任意非空格换行等字符
“.*?” 表示贪婪匹配,最少匹配一次
“()” 表示提取()中的内容
“\w” 表示正常字符,比如英文字母,中文等常见文字
“.+” 表示至少匹配一次任意字符

>>> # 设置提取表达式 
>>> poster_pattern = re.compile(r"""<a class="nbg" href=".*?"  title=".*?">.*?<img src="(.*?)" width="75" alt="(.*?)" class=""/>.*?</a>""", re.S)  # 海报的正则表达式
>>> movie_name_pattern = re.compile(r""" <div class="pl2">.*? <a href=".*?"  class="">.*?(\w+).*?<span style="font-size:13px;">(.*?)</span>.*?</a>""", re.S)  # 电影名正则表达式
>>> poster_res = re.findall(poster_pattern, data)  # 获取所有匹配结果
>>> movie_name_res = re.findall(movie_name_pattern, data)
>>> poster_res, movie_name_res
......
('https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1910902213.jpg',
'低俗小说'),
('https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1665997400.jpg',
'美丽心灵')],
[('辛德勒的名单', '舒特拉的名单(港) / 辛德勒名单'),
('狩猎', '谎言的烙印(台) / 诬网(港)'),
('美国往事', '四海兄弟(台) / 义薄云天(港)'),
......

查看结果好像没什么问题, 我们用长度比较来看看数量是否一致

>>> len(poster_res) == len(movie_name_res)
True

长度一致,看来匹配规则在这里没问题
我们将提取到的数据存储到我们的数据结构data_res中

for poster, movie_name in zip(poster_res, movie_name_res):

最低0.47元/天解锁文章

dustyposa

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 请求分析及多提取器提取数据

豆瓣电影的多方法解析豆瓣top100本项目主要是数据提取的练习,提供了5种数据提取的方式.1. 分析网页 # 需要的数据请求地址分析2. 正则提取 # 正则提取所须数据3. Css选择器提取 # 利用BeautifulSoup4 进行提取4. Xpath选择器提取 # 利用lxml的etree模块进行xpath提取5. jQuery提取 # 有前端的知识的朋友应该很熟悉,利...
复制链接

扫一扫