爬虫初探

本文介绍了使用Python进行网络爬虫的基本步骤,以煎蛋网的图片下载为例,展示了如何编写脚本实现批量下载。然而,由于网站的限制,脚本存在漏图现象,并且在处理输出信息时可能遇到文字编码问题。
摘要由CSDN通过智能技术生成

对煎·····蛋网的图片进行批量下载,但此脚本下载会漏图(与该网站的限制有关).输出信息时可能存在文字编码问题

#!usr/bin/env python
# -*- coding:utf-8 -*-

# URl:http://jandan.net/ooxx/page-+str(1-3000)+#comments
import multiprocessing
import os
import random
import urllib
import urllib2
from multiprocessing import Pool, Queue, cpu_count

import BeautifulSoup
import re
import requests


# r=requests.get("//ww3.sinaimg.cn/bmiddle/7c8e8afbjw1dh9yimwp4xj.jpg")
# urllib.urlopen("//ww3.sinaimg.cn/bmiddle/7c8e8afbjw1dh9yimwp4xj.jpg")

# 保存一张图片
import time
import socket

timeout = 10
socket.setdefaulttimeout(timeout)

#获得URL并保存图片
'''
def saveImg(imageURL, fileName):
    try:
        u = urllib2.urlopen(imageURL, timeout=10)
        data = u.read()
        f = open(fileName, 'wb')
        f.write(data)
        f.close()
    except:
        print u"图片地址有问题"
'''

def saveImg(imageURL,pageIndex,fileName):
    try:
        # 选择随机的User-Agent,以做辨别 Referer的作用
        user_agent = [
            'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
            'Opera/9.25 (Windows NT 5.1; U; en)',
            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
            
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值