python数据爬取---复杂一点的爬取

最新推荐文章于 2024-04-30 13:19:06 发布

anne_wang_swufe

最新推荐文章于 2024-04-30 13:19:06 发布

阅读量1.6k

点赞数 3

分类专栏： python数据爬取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42156897/article/details/94594753

版权

目录

1、确定目标页面并进行分析

2、Python中的正则表达式

3、使用BeautifulSoup进行html解析

4、对目标页面进行爬起并保存到本地

1、确定目标页面并进行分析

打开目标页面，右键鼠标，选择“检查”

新的窗口显示的就是该网页的元素，发现我们想要的内容应该储存在“要闻列表里面”。展开下面的<ul>

发现我们要的内容就在<h4>里面，接下来，我们就要用html解析器来提取这些内容，但是我们可能只想提取我们想要的标题和链接，而不希望有多余的内容被提取出来。所以接下来，先介绍一下正则表达式。

2、Python中的正则表达式

可以参考菜鸟教程https://www.runoob.com/python/python-reg-expressions.html查看基本的语法，这里做简单介绍：

注意使用正则表达式之前，需要import re

1）re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

re.match(pattern, string, flags=0)，匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

2）re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

re.search(pattern, string, flags=0)，匹配成功re.search方法返回一个匹配的对象，否则返回None。</

最低0.47元/天解锁文章

anne_wang_swufe

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
python数据爬取---复杂一点的爬取

目录1、确定目标页面并进行分析2、Python中的正则表达式3、使用BeautifulSoup进行html解析4、对目标页面进行爬起并保存到本地1、确定目标页面并进行分析打开目标页面，右键鼠标，选择“检查”新的窗口显示的就是该网页的元素，发现我们想要的内容应该储存在“要闻列表里面”。展开下面的<ul>发现我们要的内容就在<h4>里...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。