python爬取HTML网页

最新推荐文章于 2024-06-19 17:27:45 发布

sophia9301

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量732

点赞数 1

分类专栏： python爬虫文章标签： python html 正则

本文链接：https://blog.csdn.net/sophia9301/article/details/78261317

版权

本文介绍了如何使用Python正则表达式抓取网页上的HTML内容，特别是针对freebuf最新内容的title和URL。通过分析HTML源代码，定位到'news-info'和'news-img'类，虽然正则表达式构造复杂，但能实现数据提取。相比之下，使用BeautifulSoup库进行爬取显得更为简便。

摘要由CSDN通过智能技术生成

记录python正则学习中遇到的问题，以供日后参考。
例如，使用python正则爬取freebuf最新内容title和URL
思路：查看源代码，发现所有最新内容title和url都在 “news-info”和”news-img”这两个类中，通过一次性定位到这两个类中的内容来进行爬取。
难点主要是不会构造正则表达式，经过学习可写出来，但是较为繁琐。
这里写图片描述

#coding=utf-8  
import re
import requests
from distutils.filelist import findall

contents= requests.get('http://www.freebuf.com/').text  
pattern=re.compile('<div class="news-img.

最低0.47元/天解锁文章

sophia9301

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取HTML网页

记录python正则学习中遇到的问题，以供日后参考。例如，使用python正则爬取freebuf最新内容title和URL 思路：查看源代码，发现所有最新内容title和URL都在和这两个类中，通过一次性定位到这两个类中的内容来进行爬取。难点主要是不会构造正则表达式，经过学习可写出来，但是较为繁琐。 #coding=utf-8 import reimport requestsf
复制链接

扫一扫

专栏目录