1、用方法重写了代码,读起来更清晰些。
2、增加了按文件夹保存,并按标题命名图片
2、比第一版扩大了爬取范围,第一版只能爬取第一个板块,这一版可以爬七个板块,第八个板块等下次更新再添加进去(这个板块和其他板块有少许区别需加个判断)。
import requests
from bs4 import BeautifulSoup
import re
import os
m=[1] #从1开始的单人图片序号
o=1 #从1开始的人的序号
def SoupUrl(self): #解析网页
response=requests.get(self,headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'})
response.raise_for_status()
response.encoding = response.apparent_encoding
soup=BeautifulSoup(response.text,'html.parser')
return soup
def ZhuantiLst(self): #得到专题列表
n=1
ztlst=[] #专题列表
soup=SoupUrl(self).find(name='div',attrs={
"id":"container"})
soup=soup.find_all(name='h3',attrs={
'class':"list_title"})
for x in soup:
ztlst.append(x.find('a').get('href'))
print("\r已得到的第{0}个专题链接".format(n)