手刃一个小爬虫(Python)

1.首先拿到页面源代码(我这里以豆瓣排名前50的页面源代码)

右击选择页面源代码,打开如下:

import requests
import re

url = "https://movie.douban.com/top250"#检查找到该页面的url
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"
}
res = requests.get(url,headers=header)#通过get请求获得数据
page_content = res.text#成功获取页面源代码

2.解析数据

#此过程需要正则表达式的一些内容和re模块的方法。
obj = re.compile('<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'#获取名字
                 '.*?<br>(?P<age>.*?)&nbsp;/'#获取年份
                 '.*?"v:average">(?P<average>.*?)</span>',re.S)#获取评分

3.开始匹配

red = obj.finditer(page_content)
for it in red:
    print(it.group("name"))
    print(it.group("age").strip())
    print(it.group("average"))

输出结果:
D:\pythonProject\venv\Scripts\python.exe D:/Other_things/Users/刘伟/Desktop/python/venv/day-03.py
肖申克的救赎
1994
9.7
霸王别姬
1993
9.6
阿甘正传
1994
9.5
这个杀手不太冷
1994
9.4
泰坦尼克号
1997
9.4
美丽人生
1997
9.6
千与千寻
2001
9.4
辛德勒的名单
1993
9.5
盗梦空间
2010
9.3
忠犬八公的故事
2009
9.4
星际穿越
2014
9.3
楚门的世界
1998
9.3
海上钢琴师
1998
9.3
三傻大闹宝莱坞
2009
9.2
机器人总动员
2008
9.3
放牛班的春天
2004
9.3
无间道
2002
9.3
疯狂动物城
2016
9.2
大话西游之大圣娶亲
1995
9.2
熔炉
2011
9.3
教父
1972
9.3
当幸福来敲门
2006
9.1
龙猫
1988
9.2
怦然心动
2010
9.1
控方证人
1957
9.6

Process finished with exit code 0

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值