python3实现爬虫爬取今日头条上面的图片(requests+正则表达式+beautifulSoup+Ajax+多线程)

本文介绍了使用Python3进行爬虫开发,结合requests库抓取网页数据,正则表达式解析信息,BeautifulSoup进行HTML解析,Ajax获取动态内容,以及多线程提升爬取效率。最终目标是爬取今日头条上的重庆小吃图片,并将几百张图片存入MongoDB分布式数据库。
摘要由CSDN通过智能技术生成

1.环境须知
做这个爬取的时候需要安装好python3.6和requests、BeautifulSoup等等一些比较常用的爬取和解析库,还需要安装MongoDB这个分布式数据库。
2.直接上代码
spider.py

import json
import re
from _md5 import md5
from urllib.parse import urlencode
from hashlib import md5
from multiprocessing import Pool
import os
import pymongo
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from config import *
#连接mongo的配置
client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]
#得到索引页的内容
def get_page_index(offset,keyword):
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': 3
    }
    ur
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值