环境:
我的是Linux系统
环境:python3.7.2
软件:Pycharm(或者直接用命令行操作也行)
进入正题:
本人是胡歌的粉,爬取一下豆瓣里的琅琊榜页面的一些图片,hhhhh
网址:https://movie.douban.com/subject/25754848/
通过查看源代码,可以发现这部分的图片都是这样的形式进行显示的, src="...." alt="....",我们只要这两个就行
好了,直接上代码:
from re import findall
from urllib.request import urlopen
url = 'https://movie.douban.com/subject/25754848/'
with urlopen(url) as fp:
content = fp.read().decode()
pattern = 'src="(.+?)" alt="图片" '
result = findall(pattern, content)
for index, item in enumerate(result):
with urlopen(str(item)) as fp:
with open(str(index)+'.jpg', 'wb') as fp1:
fp1.write(fp.read())
记得要 先导入需要的包,运行这个程序之后在本项目的文件夹中可以看到爬取的那几张图片
成功!