1.环境须知
做这个爬取的时候需要安装好python3.6和requests、BeautifulSoup等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。
2.直接上代码
spider.py
import json
import re
from _md5 import md5
from urllib.parse import urlencode
from hashlib import md5
from multiprocessing import Pool
import os
import pymongo
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from config import *
#连接mongo的配置
client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]
#得到索引页的内容
def get_page_index(offset,keyword):
data = {
'offset': offset,
'format': 'json',
'keyword': keyword,
'autoload': 'true',
'count': '20',
'cur_tab': 3
}
ur