手刃一个小爬虫（Python）-CSDN博客

本文链接：https://blog.csdn.net/qq_53272273/article/details/120388681

1.首先拿到页面源代码（我这里以豆瓣排名前50的页面源代码）

右击选择页面源代码，打开如下：

import requests
import re

url = "https://movie.douban.com/top250"#检查找到该页面的url
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"
}
res = requests.get(url,headers=header)#通过get请求获得数据
page_content = res.text#成功获取页面源代码

2.解析数据

#此过程需要正则表达式的一些内容和re模块的方法。
obj = re.compile('<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'#获取名字
                 '.*?<br>(?P<age>.*?)&nbsp;/'#获取年份
                 '.*?"v:average">(?P<average>.*?)</span>',re.S)#获取评分

3.开始匹配

red = obj.finditer(page_content)
for it in red:
    print(it.group("name"))
    print(it.group("age").strip())
    print(it.group("average"))

输出结果：
D:\pythonProject\venv\Scripts\python.exe D:/Other_things/Users/刘伟/Desktop/python/venv/day-03.py
肖申克的救赎
1994
9.7
霸王别姬
1993
9.6
阿甘正传
1994
9.5
这个杀手不太冷
1994
9.4
泰坦尼克号
1997
9.4
美丽人生
1997
9.6
千与千寻
2001
9.4
辛德勒的名单
1993
9.5
盗梦空间
2010
9.3
忠犬八公的故事
2009
9.4
星际穿越
2014
9.3
楚门的世界
1998
9.3
海上钢琴师
1998
9.3
三傻大闹宝莱坞
2009
9.2
机器人总动员
2008
9.3
放牛班的春天
2004
9.3
无间道
2002
9.3
疯狂动物城
2016
9.2
大话西游之大圣娶亲
1995
9.2
熔炉
2011
9.3
教父
1972
9.3
当幸福来敲门
2006
9.1
龙猫
1988
9.2
怦然心动
2010
9.1
控方证人
1957
9.6

Process finished with exit code 0