python3实现爬虫爬取今日头条上面的图片（requests+正则表达式+beautifulSoup+Ajax+多线程）

最新推荐文章于 2020-12-03 11:20:29 发布

flood_d

最新推荐文章于 2020-12-03 11:20:29 发布

阅读量1.7k

点赞数 1

文章标签： python mongodb 爬虫 requests ajax

本文链接：https://blog.csdn.net/DH_SIR/article/details/78500438

版权

本文介绍了使用Python3进行爬虫开发，结合requests库抓取网页数据，正则表达式解析信息，BeautifulSoup进行HTML解析，Ajax获取动态内容，以及多线程提升爬取效率。最终目标是爬取今日头条上的重庆小吃图片，并将几百张图片存入MongoDB分布式数据库。

摘要由CSDN通过智能技术生成

1.环境须知
做这个爬取的时候需要安装好python3.6和requests、BeautifulSoup等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。
2.直接上代码
spider.py

import json
import re
from _md5 import md5
from urllib.parse import urlencode
from hashlib import md5
from multiprocessing import Pool
import os
import pymongo
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from config import *
#连接mongo的配置
client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]
#得到索引页的内容
def get_page_index(offset,keyword):
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': 3
    }
    ur