python爬虫——基于正则表达式爬取（服务器渲染）

最新推荐文章于 2023-05-05 17:32:09 发布

Wu_L7

最新推荐文章于 2023-05-05 17:32:09 发布

阅读量821

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/Wu_L7/article/details/127126580

版权

本文介绍了Python爬虫中关于服务器渲染与客户端渲染的区别，并通过一个案例展示了如何使用正则表达式抓取电影信息。在查看页面源代码后，利用正则表达式编译并匹配网页数据，最终将结果写入CSV文件。学习正则表达式和爬取技巧是提升爬虫能力的关键。

摘要由CSDN通过智能技术生成

上篇爬虫写了有关客户端的渲染(16条消息) python爬虫——基于小案例学习（客户端渲染）_Wu_L7的博客-CSDN博客，这次来讲一下服务器渲染。

概念：

客户端渲染和服务器端渲染的最重要的区别就是究竟是谁来完成html文件的完整拼接。如果是在服务器端完成的，然后返回给客户端，就是服务器端渲染；如果是前端做了更多的工作完成了html的拼接，则是客户端渲染。

可简单理解为，如果在网页的页面源代码中可直接找到页面的所有信息，则是服务器渲染；如果只有一部分的框架信息，则是客户端渲染。

在正式爬取之前，先来学习一个前置知识——正则表达式：

正则表达式的内容基本都列在上面了，不难理解，内容也比较简单，就不一一赘述了，大家可以自行找资料学习。

案例需求：假设我们需要获取当前页面的一些电影信息，例如电影名称、电影上映年份以及国家和电影评分。

右键，点击查看页面源代码，进入源代码界面，发现确实有我们想要的东西。（ctrl+F：当前页面查找框）

代码：

import requests
import csv
import re
url = "https://movie.douban.com/chart"
heads = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                  "(KHTML, like Gecko) Chrome/105.0.0.0 Safari"
                  "/537.36 Edg/105.0.1343.53"
}# 要用自己的user-agent

# 正则预处理
obj = re.compile(r'<table width="100%" class="">.*?class="">(?P<name>.*?)/ <span '
                 r'style=.*?<p class="pl">(?P<y_c>.*?) /.*?<span class="rating_'
                 r'nums">(?P<score>.*?)</span>', re.S)#re.S使.也能匹配换行符

#将结果写入csv文件
f = open("top.csv", mode="w", newline="")
csv_w = csv.writer(f)
res = requests.get(url=url, headers=heads)# 以get形式获取到该网页的源代码
res.encoding="utf-8"
page_text = obj.finditer(res.text)# 获取到该网页的数据迭代器
for i in page_text:
    dic = i.groupdict()
    dic["name"]=dic["name"].strip()
    csv_w.writerow(dic.values())

f.close()
print("over!")

效果：