python爬虫——基于正则表达式爬取(服务器渲染)

本文介绍了Python爬虫中关于服务器渲染与客户端渲染的区别,并通过一个案例展示了如何使用正则表达式抓取电影信息。在查看页面源代码后,利用正则表达式编译并匹配网页数据,最终将结果写入CSV文件。学习正则表达式和爬取技巧是提升爬虫能力的关键。
摘要由CSDN通过智能技术生成

上篇爬虫写了有关客户端的渲染(16条消息) python爬虫——基于小案例学习(客户端渲染)_Wu_L7的博客-CSDN博客,这次来讲一下服务器渲染。

概念:

客户端渲染和服务器端渲染的最重要的区别就是究竟是谁来完成html文件的完整拼接。如果是在服务器端完成的,然后返回给客户端,就是服务器端渲染;如果是前端做了更多的工作完成了html的拼接,则是客户端渲染。

可简单理解为,如果在网页的页面源代码中可直接找到页面的所有信息,则是服务器渲染;如果只有一部分的框架信息,则是客户端渲染。

在正式爬取之前,先来学习一个前置知识——正则表达式

 ​​​​​​​

正则表达式的内容基本都列在上面了,不难理解,内容也比较简单,就不一一赘述了,大家可以自行找资料学习。


案例需求:假设我们需要获取当前页面的一些电影信息,例如电影名称、电影上映年份以及国家和电影评分。

 

右键,点击查看页面源代码,进入源代码界面,发现确实有我们想要的东西。(ctrl+F:当前页面查找框)

代码:

import requests
import csv
import re
url = "https://movie.douban.com/chart"
heads = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                  "(KHTML, like Gecko) Chrome/105.0.0.0 Safari"
                  "/537.36 Edg/105.0.1343.53"
}# 要用自己的user-agent

# 正则预处理
obj = re.compile(r'<table width="100%" class="">.*?class="">(?P<name>.*?)/ <span '
                 r'style=.*?<p class="pl">(?P<y_c>.*?) /.*?<span class="rating_'
                 r'nums">(?P<score>.*?)</span>', re.S)#re.S使.也能匹配换行符

#将结果写入csv文件
f = open("top.csv", mode="w", newline="")
csv_w = csv.writer(f)
res = requests.get(url=url, headers=heads)# 以get形式获取到该网页的源代码
res.encoding="utf-8"
page_text = obj.finditer(res.text)# 获取到该网页的数据迭代器
for i in page_text:
    dic = i.groupdict()
    dic["name"]=dic["name"].strip()
    csv_w.writerow(dic.values())

f.close()
print("over!")

 效果:

温馨小提示:

1、本篇文章内容有点多,但是写得没那么细,请大家多多包涵!但是干货真的很多(我觉得),如果遇到不明白的,强烈建议大家去找一下资料弄懂,内容不是很难。

2、学会之后一定要自己亲手实现一遍,加强记忆。

3、如果一下子很难接受这个,可能看一下我上篇文章:(16条消息) python爬虫——基于小案例学习(客户端渲染)_Wu_L7的博客-CSDN博客

 这个讲得比较细一点,学完再看这个,可能会事半功倍。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值