Python爬虫之女神网图片(三)

本文介绍了如何使用Python爬虫抓取女神网的图片。通过分析网站结构,利用requests、re等库获取图片集链接,并通过BeautifulSoup解析详情页,抓取图片标题、地址和数量。借助os库进行文件保存,使用pymongo存储数据。尽管爬取过程相对简单,但提出了优化方案,如预先验证有效图片地址并引入多线程提高效率。
摘要由CSDN通过智能技术生成

女神网是一个可以搜索女神的图片的网站。



废话不说,直接来干货:

环境配置:

  1. 系统环境:WIN7/8/10
  2. 编译环境:Python3+
  3. 所需库:requests、re、os、pymongo、Beatifulsoup、time
  4. IDE:Pycharm

nvshen.py

#!/usr/bin/python
# -*- coding: utf-8 -*-

import requests
from requests import RequestException
from bs4 import BeautifulSoup
import re
from multiprocessing import Pool


# import pymongo

# from config import *
import os
import time

start=24656#起始图片ID,打开任何一个图集,链接最后的那一串数字,五位数。
end=25370#终止图片ID,起始初始建议间隔大一些,然后然他自动遍历搜索有效地址

# MONGO_URL = 'localhost'#建立数据库基本参数,并且连接本地MONGODB数据库。
# MONGO_DB = 'nvshens'
# MONGO_TABLE = 'piture'
# client = pymongo.MongoClient(MONGO_URL,connect=False)#声明MONGODB数据库对象,connect=False是为了消除MONGODB有关多线程的提示
# db=client[MONGO_DB]#数据库名称

base_url='https://www.nvshens.com/g/'#宅男女神美图图片专栏下的基本网址

headers1={
"Accept":"text/html,application/xhtml
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一摩尔自由

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值