豆瓣电影的多方法解析
本项目主要是数据提取的练习,提供了5种数据提取的方式.
1. 分析网页 # 需要的数据请求地址分析
2. 正则提取 # 正则提取所须数据
3. Css选择器提取 # 利用BeautifulSoup4 进行提取
4. Xpath选择器提取 # 利用lxml的etree模块进行xpath提取
5. jQuery提取 # 有前端的知识的朋友应该很熟悉,利用的是pyquery模块,节点选择语法与jQuery一致
6. Scrapy/parsel 混合提取器 # 利用scrapy的Selector模块进行混合提取
7. 总结
完整代码
1. 分析网页,确认爬取目标的数据类型。
-
打开 目标url, 定位数据位置
-
定位需要的数据位置,查看爬取目标。
由图可得,我们需要的数据分别为,[‘海报’, ‘电影名’, ‘上映日期’, ‘演员’, ‘评分’, ‘评价人数’] -
查看请求,分析数据来源请求(F12 >> network 打开请求界面,如下图)
信息 | 结果 |
---|---|
请求地址 | https://movie.douban.com/tag/Top100 |
请求方法 | Get |
响应格式 | text 文本 |
编码 | UTF-8 |
2. 利用requests进行请求测试
requests.get
定义请求函数,get_data
返回text
数据
模块导入
>>> import requests
>>> from requests.exceptions import HTTPError
def get_data(url):
response = requests.get(url)
if response.status_code == requests.codes.ok: # 检测状态码
return response.text # 返回响应的文本信息
else:
response.raise_for_status() # 4xx 5xx 时,引出错误 代替 raise requests.exception.HTTPError
url = "https://movie.douban.com/tag/Top100"
data = get_data(url) # 获取数据
data_res = {
} # 存储数据的初始化字典
data # 查看数据
<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-windows ua-webkit">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
......
3. 提取数据
- 正则提取
- BeautifulSoup 提取
- Xpath 提取
- pyquery 提取
- scrapy 混合提取
1. 正则提取
- 观察数据位置
导入模块
>>> import re
提取 海报地址以及电影名称
通过查看该请求的响应内容快速进行复制匹配,如下图搜索:
用到的匹配规则提示:
- “.” 表示任意非空格换行等字符
- “.*?” 表示贪婪匹配,最少匹配一次
- “()” 表示提取()中的内容
- “\w” 表示正常字符,比如英文字母,中文等常见文字
- “.+” 表示至少匹配一次任意字符
>>> # 设置提取表达式
>>> poster_pattern = re.compile(r"""<a class="nbg" href=".*?" title=".*?">.*?<img src="(.*?)" width="75" alt="(.*?)" class=""/>.*?</a>""", re.S) # 海报的正则表达式
>>> movie_name_pattern = re.compile(r""" <div class="pl2">.*? <a href=".*?" class="">.*?(\w+).*?<span style="font-size:13px;">(.*?)</span>.*?</a>""", re.S) # 电影名正则表达式
>>> poster_res = re.findall(poster_pattern, data) # 获取所有匹配结果
>>> movie_name_res = re.findall(movie_name_pattern, data)
>>> poster_res, movie_name_res
......
('https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1910902213.jpg',
'低俗小说'),
('https://img3.doubanio.com/view/photo/s_ratio_poster/public/p1665997400.jpg',
'美丽心灵')],
[('辛德勒的名单', '舒特拉的名单(港) / 辛德勒名单'),
('狩猎', '谎言的烙印(台) / 诬网(港)'),
('美国往事', '四海兄弟(台) / 义薄云天(港)'),
......
查看结果好像没什么问题, 我们用长度比较来看看数量是否一致
>>> len(poster_res) == len(movie_name_res)
True
长度一致,看来匹配规则在这里没问题
我们将提取到的数据存储到我们的数据结构data_res
中
for poster, movie_name in zip(poster_res, movie_name_res):