正则表达式提取豆瓣T250中的部分信息

import requests
import re

url = "https://movie.douban.com/top250?start=0&filter="
head = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
  }
resp = requests.get(url, headers=head)



obj = re.compile(r'<span class="title">(?P<name>.*?)</span>'
                 r'.*?<br>(?P<year>.*?)&nbsp',re.S)
result = obj.finditer(resp.text)
for item in result:
  name = item.group("name")
  year = item.group("year")
  print(name,year)

运行结果

肖申克的救赎 
                            1994
霸王别姬 
                            1993
阿甘正传 
                            1994
泰坦尼克号 
                            1997
这个杀手不太冷 
                            1994
千与千寻 
                            2001
美丽人生 
                            1997
辛德勒的名单 
                            1993
星际穿越 
                            2014
盗梦空间 
                            2010
楚门的世界 
                            1998
忠犬八公的故事 
                            2009
海上钢琴师 
                            1998
三傻大闹宝莱坞 
                            2009
放牛班的春天 
                            2004
机器人总动员 
                            2008
疯狂动物城 
                            2016
无间道 
                            2002
控方证人 
                            1957
大话西游之大圣娶亲 
                            1995
熔炉 
                            2011
教父 
                            1972
触不可及 
                            2011
当幸福来敲门 
                            2006
末代皇帝 
                            1987

Process finished with exit code 0

1:确定自己需要爬虫的内容在哪一个url中

2:发送请求(get/post),收到url的网页源代码或者网页数据

3:使用正则表达式提取有用信息。(compile,findall,research,finditer)

大体的处理思路如上。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值