这是一个比较简单的爬虫,所以选择的是一个不会有反爬虫的网页,不需要设置伪头之类的
1,首先打开多玩图库,打开手机壁纸
可知道网址为:http://tu.duowan.com/m/bizhi
首先创建下载器,用程序查看下源代码
#!/usr/bin/env python
# -*- coding:utf-8 -*-
#创建下载器,查看网址源代码
import requests
#爬虫类
class Spider:
def __init__(self):
self.session = requests.Session()
#下载器
def download(self,url):
response = self.session.get(url)
#print(response)#返回是否可以运行200
print(response.text)#返回网页源代码
if __name__ == '__main__':
spider = Spider()
spider.download('http://tu.duowan.com/m/bizhi')
执行成功将打印源代码在终端
2,分析网页,获取id,并打印去重
打开网页,点手机壁纸,按F12,然后ctrl+shift+c查看图片找到a标签
然后我们分析URL用正则表达式表示出来
代码如下:
#获取网址id,打印并去重 import requests import re #爬虫类 class Spider: def __init__(self): self.session = requests.Session() def run(self,start_url): img_ids = self.get_img_item_ids(start_url)