Python爬虫结合正则表达式练习

最新推荐文章于 2022-04-20 14:57:26 发布

Fla5hback

最新推荐文章于 2022-04-20 14:57:26 发布

阅读量220

点赞数 2

分类专栏： python安全开发文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/Fla5hback/article/details/118469677

版权

python安全开发专栏收录该内容

7 篇文章 0 订阅

订阅专栏

@python网络安全开发学习2

Python爬虫结合正则表达式练习

练习目的：
使用python爬虫爬取斗鱼页面部分文字内容

# 使用python爬虫爬取斗鱼页面部分文字内容
import urllib.request #导入爬虫HTTP发送请求的模块
import re  #导入正则表达式模块

url = 'https://www.douyu.com/'  #定义url字符串为斗鱼网站
r = urllib.request.urlopen(url) #使用模块中的urlopen方法打开传入参数URL的页面
print(r.read().decode('utf-8'))   #使用read方法读取内存，并指定编码支持中文

返回错误
在这里插入图片描述
经检查网站返回头是gzip格式，需要解码

from io import BytesIO 
import gzip 
import urllib.request #导入爬虫HTTP发送请求的模块
import re  #导入正则表达式模块

url = 'https://www.douyu.com/'  #定义url字符串为斗鱼网站
r = urllib.request.urlopen(url) #使用模块中的urlopen方法打开传入参数URL的页面
content = r.read()  # content是压缩过的数据

buff = BytesIO(content)  # 把content转为文件对象
f = gzip.GzipFile(fileobj=buff) #解压缩
res = f.read().decode('utf-8')  #使用read方法读取并转码
print(res)

在这里插入图片描述可以获得网站信息，接下来使用正则匹配出想要的中文

from io import BytesIO 
import gzip 
import urllib.request # 导入爬虫HTTP发送请求的模块
import re  # 导入正则表达式模块

url = 'https://www.douyu.com/'  # 定义url字符串为斗鱼网站
r = urllib.request.urlopen(url) # 使用模块中的urlopen方法打开传入参数URL的页面
content = r.read()  # content是压缩过的数据

buff = BytesIO(content)  # 把content转为文件对象
f = gzip.GzipFile(fileobj=buff) # 解压缩
res = f.read().decode('utf-8')  # 使用read方法读取并转码
a = re.findall(r'alt="(.*?)"',res)  # 使用正则表达式匹配所有在页面中 alt="  " 中间的内容
for i in range(0,len(a)):   # 利用遍历打印出
    print(a[i])

返回结果
在这里插入图片描述

Fla5hback

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫结合正则表达式练习

@python网络安全开发学习2Python爬虫结合正则表达式练习练习目的：使用python爬虫爬取斗鱼页面部分文字内容# 使用python爬虫爬取斗鱼页面部分文字内容import urllib.request #导入爬虫HTTP发送请求的模块import re #导入正则表达式模块url = 'https://www.douyu.com/' #定义url字符串为斗鱼网站r = urllib.request.urlopen(url) #使用模块中的urlopen方法打开传入参数URL的
复制链接

扫一扫

专栏目录