python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

最新推荐文章于 2024-01-31 17:02:49 发布

weixin_39796363

最新推荐文章于 2024-01-31 17:02:49 发布

阅读量1.1k

点赞数

文章标签： python正则表达式爬取网页数据

本文介绍了Python正则表达式在爬虫中的应用，包括如何获取HTML标签内容，提取超链接，解析URL参数，抓取网页标题，处理table数据，过滤特定标签，以及从script中提取图片URL等技巧，提供了多个实用示例。

摘要由CSDN通过智能技术生成

Python爬取网页信息时，经常使用的正则表达式及方法。

1.获取

标签之间内容2.获取超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题title两种方法6.定位table位置并爬取属性-属性值7.过滤等标签8.获取等标签内容

1). 获取

标签之间内容

开始标签如：

、、、

...

后缀标签如：、、、、

、...

核心代码：

res_tr = r'

'

m_tr = re.findall(res_tr,language,re.S|re.M)

# eg_v1

import re

language = '''

床前明月光忧思独伤心

# 正则表达式获取

之间内容

res_tr = r"

"

m_tr = re.findall(res_tr,language,re.S|re.M)

print (unicode(m_tr,"utf-8"))

for line in m_tr:

print line

res_th = r"

(.*?)"

m_th = re.findall(res_th,line,re.S|re.M)

for mm in m_th:

print (unicode(mm,"utf-8"))

res_td = r"

(.*?)"

m_td = re.findall(res_td,line,re.S|re.M)

for nn in m_td:

print (unicode(nn,"utf-8"))

2). 获取超链接之间内容

在使用正则表达式时，需要分析网页链接，获取URL或网页内容。核心代码如下：

res = r'(.*?)'

mm = re.findall(res, content, re.S|re.M)

urls=re.findall(r"", content, re.I|re.S|re.M)

# eg_v2

import re

content = '''

浙江省主题介绍

贵州省主题介绍

'''

# 获取之间的内容

res = r'(.*?)'

mm = re.findall(res,content,re.S|re.M)

for

最低0.47元/天解锁文章

weixin_39796363

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。