re表达式仿写模板

最新推荐文章于 2021-11-16 21:04:19 发布

cmzz

最新推荐文章于 2021-11-16 21:04:19 发布

阅读量184

点赞数

分类专栏： python 文章标签：正则表达式

本文链接：https://blog.csdn.net/qq_40965177/article/details/105560429

版权

python 专栏收录该内容

44 篇文章 2 订阅

订阅专栏

10分钟B站学会正则表达式
 30分钟入门正则表达式

标签dd为一个item：

在这里插入图片描述

完整的dd标签

在这里插入图片描述

爬取的html

在这里插入图片描述

匹配排名re

在这里插入图片描述

封面

在这里插入图片描述

最终匹配

在这里插入图片描述

仿写，没有额外的包，可以直接运行

# -*- coding: utf-8 -*-
import re
from urllib import request
headers = {'User-Agent': "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11"}
url = 'https://search.51job.com/list/030200,000000,0000,32,9,99,%25E8%25BD%25AF%25E4%25BB%25B6%25E5%25B7%25A5%25E7%25A8%258B%25E5%25B8%2588,2,2.html'
req = request.Request(url=url, headers=headers)
response = request.urlopen(req)
print(response.info())
html = response.read().decode('gbk')
pattern = re.compile('<div.*?>.*?<a.*?title="(.*?)".*?</a>.*?<a.*?>(.*?)</a>.*?<span.*?>(.*?)</span>.*?'
                     +'<span.*?>(.*?)</span>.*?<span.*?>(.*?)</span>.*?</div>', re.S)
content_list = re.findall(pattern, html)
for i in content_list[:-3]:
    print(i)

结果：

在这里插入图片描述 python编码问题

cmzz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
re表达式仿写模板

标签dd为一个item：完整的dd标签爬取的html匹配排名re封面最终匹配仿写，没有额外的包，可以直接运行# -*- coding: utf-8 -*-import refrom urllib import requestheaders = {'User-Agent': "Mozilla/5.0 (X11; U; Linux i686) Gecko/200711...
复制链接

扫一扫