python读取两行字符串_python:处理字符串的另一大神器——正则表达式,利用正则提取豆瓣电影排行榜信息...

在之前的文章中,我们已经学会了使用bs4库中的BeautifulSoup,用于获取网页源代码中的标签。 今天来一起学习一下正则表达式。

在python中需要使用正则表达式的话,需要先声明:

import re

首先正则表达式中,有许多的元字符,所谓元字符也就是含有特殊意义的字符,比如在正则中,“.”表示匹配除了换行符(\n)以外的任意字符。

下面是从百度找的一张表,供大家参考:

其实在实际过程中,我们并不需要全部死记硬背下来所有的内容,只需要留个大致印象,在实践中,慢慢掌握。

下面我们进行一个实战:用正则表达式的方法抓取豆瓣电影排行榜中的电影名称和豆瓣评分

第一步,分析网页

打开豆瓣排行榜,F12分析网页元素

可以很容易的分析出,标题所在的标签是:

肖申克的救赎

评分所在的标签是:

9.0

首先,调用re库和requests库

import re

import requests

在这里我简单的介绍一下一些概念,在正则中,“.*”表示贪婪匹配,也就是说,会尽可能多的匹配字符串,并且在遇到换行符的时候结束匹配。 实验如下:

In [1]: import requests

In [2]: import re

In [3]: r=requests.get('https://movie.douban.com/top250?start=0&filter=')

In [4]: r.encoding

Out[4]: 'utf-8'

In [5]: r=r.text

In [32]: p=re.compile('.*')

In [33]: p.findall(r)

可以看见输出内容为:

compile()方法是构建一个pattern对象,用于正则。

findall()方法是用来返回所有匹配结果。

而“.*?”则表示非贪婪匹配,也就是说尽可能少的进行匹配。用上述同样的方法,可以发现“.*?”根本匹配不到任何数据,返回的是一个空列表。

同理,抓取标题和评分:

In [34]: p=re.compile('(.*?)')

In [35]: p.findall(r)

Out[35]: []

In [38]: p=re.compile('(.*?)|(.*?)')

In [39]: p.findall(r)

结果如下:

通过上述实验,是不是发现,正则表达式比beautifulsoup简单的多?

只需要两行代码就将信息提取出来了,真的很强大!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值