网络爬虫的主要目的就是用来抓妹子图,而“妹子图”网站没有烦人的反爬虫机制,是我选择用来寄生的好网站,而且自从我写出来这个代码,我瘦了两斤我会到处乱说?


实验目标:从5200页爬虫爬到5205页,抓取图片。(5200页是偶家小美人武田玲奈!!)


from bs4 import BeautifulSoup    #本次实验的主要捕获方式是用bs4#
import requests
import re
i=0
for a in range(5200,5206):         #设定从5200页翻到5205页#
  url="http://www.meizitu.com/a/"+str(a)+".html"        #比较直白的翻页方式#
  html=requests.get(url)
  A='<p><div id="picture">'
  content=html.text.partition(A)[2]                
  B='<div class="boxinfo">'
  body=content.partition(B)[0]              
#源代码里的img节点里的title不全相同,采用了partition方式切块,但是这样的情况用Xpath更好#
  soup=BeautifulSoup(body,"html.parser")
  pictures=soup.find_all("img")          
  for picture in pictures:
  # print(picture["src"])
    print("Now Downloading:"+str(i))
    pic=requests.get(picture["src"])        
    fp=open("e:/pythonaaa/b/Study & test/"+str(i)+".jpg","wb")
    fp.write(pic.content)   #wb二进制写入搭配content将整个文件抓下来#
    i=i+1