学了一段时间的python,在借鉴了大佬们的经验后,来实践一下图片爬取吧,前期的软件安装和环境配置就不再赘述了(其实我不会,大家自行搜索,狗头保命QAQ)
导入必要的包
from selenium import webdriver
from bs4 import BeautifulSoup
import requests
打开谷歌浏览器
driver = webdriver.Chrome()
设置要爬取的网站
driver.get('你想爬的网站')
定义爬虫方法
def getImage():
# 将index置为全局变量
global index
# 循环爬取,循环多少次爬取多少页的图片
for i in range(0,50):
# 模拟点击下一页,因为爬取完一页需要点击下一页爬取
driver.find_element_by_link_text("下一页").click()
# 解析网页
html = BeautifulSoup(driver.page_source, 'html.parser')
# 获取原图的url链接
links =html.find('div', {'class': 'slist'}).find_all('img')
# 遍历当页获得的所有原图链接
for link in links:
# 将原图存至当前目录下的你所创建的文件夹,以index命名,后缀名为jpg
with open('文件夹名/{}.jpg'.format(index), 'wb') as jpg:
jpg.write(requests.get("你想爬的网站" + link.get('src')).content)
爬虫虽好,可不要贪心哦。