python数据爬取---复杂一点的爬取

目录

1、确定目标页面并进行分析

2、Python中的正则表达式

3、使用BeautifulSoup进行html解析

4、对目标页面进行爬起并保存到本地


1、确定目标页面并进行分析

打开目标页面,右键鼠标,选择“检查”

新的窗口显示的就是该网页的元素,发现我们想要的内容应该储存在“要闻列表里面”。展开下面的<ul>

发现我们要的内容就在<h4>里面,接下来,我们就要用html解析器来提取这些内容,但是我们可能只想提取我们想要的标题和链接,而不希望有多余的内容被提取出来。所以接下来,先介绍一下正则表达式。

2、Python中的正则表达式

可以参考菜鸟教程https://www.runoob.com/python/python-reg-expressions.html查看基本的语法,这里做简单介绍:

注意使用正则表达式之前,需要import re

1)re.match函数

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

re.match(pattern, string, flags=0),匹配成功re.match方法返回一个匹配的对象,否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

2)r

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值