爬虫 妹子图 给你的get加个请求头吧~

[python]  view plain  copy
  1. import requests  
  2. from lxml import etree  
  3. import os  
  4.   
  5.   
  6. source_url = 'http://www.mmjpg.com'  
  7.   
  8. s = requests.Session()  
  9. s.headers['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'  
  10. s.headers['Cache-Control']='max-age=0'  
  11. s.headers['Connection']='keep-alive'  
  12. s.headers['Accept-Encoding']='gzip, deflate, sdch'  
  13. s.headers['Upgrade-Insecure-Requests']='1'  
  14. # s.headers['Host']='www.mmjpg.com'  
  15. s.headers['Referer']='http://www.mmjpg.com/'  
  16. s.headers['Accept-Language']='zh-CN,zh;q=0.8'  
  17. s.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'  
  18.   
  19. def downpage(droute, ele_con_url, No=1):  
  20.     print(No)  
  21.     con = requests.get(ele_con_url)  
  22.     page_con = con.content.decode('utf-8')  
  23.     page_con = etree.HTML(page_con)  
  24.     down_url = page_con.xpath('//div[@class="content"]/a/img/@src')[0]  
  25.     print(down_url)  
  26.   
  27.     with open(droute+str(No)+'.jpg''wb') as f:  
  28.         con = s.get(down_url)  
  29.         # print(con)  
  30.         f.write(con.content)  
  31.     try:  
  32.         bldown = page_con.xpath('//div[@class="page"]/a[text()="下一张"]/@href')[0]  
  33.     except:  
  34.         print("pictures of this lady have been downloaded ")  
  35.     else:  
  36.         if bldown:  
  37.             ele_con_url = source_url + bldown  
  38.             No = No + 1  
  39.             downpage(droute, ele_con_url, No)  
  40.   
  41.   
  42. con_url = source_url  
  43. page = 0  
  44. while True:  
  45.     page = page +1  
  46.     print(con_url)  
  47.     con = s.get(con_url)  
  48.     print()  
  49.     page_content = etree.HTML(con.content.decode('utf-8'))  
  50.     item_data = page_content.xpath('//div[@class="pic"]/ul/li')  
  51.     item_len = len(item_data)  
  52.     print(item_len)  
  53.   
  54.     print("page :%d" % page)  
  55.   
  56.     for eve_item in item_data:  
  57.         ele_con_url = eve_item.xpath('a/@href')[0]  
  58.         ele_name = eve_item.xpath('a/img/@alt')[0]  
  59.         print(ele_con_url)  
  60.         if os.path.exists(ele_name):  
  61.             continue  
  62.         else:  
  63.             os.mkdir(ele_name)  
  64.             downpage(ele_name + '/', ele_con_url)  
  65.         print(ele_con_url,ele_name)  
  66.   
  67.   
  68.     try:  
  69.         blnextpage = page_content.xpath('//div[@class="page"]/a[text()="下一页"]/@href')[0]  
  70.     except:  
  71.         print("pictures of all ladies have been downloaded ")  
  72.         break  
  73.     else:  
  74.         con_url = source_url + blnextpage  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安果移不动

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值