爬虫初探

最新推荐文章于 2018-05-17 19:33:50 发布

qq_30717683

最新推荐文章于 2018-05-17 19:33:50 发布

阅读量247

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_30717683/article/details/68923557

版权

本文介绍了使用Python进行网络爬虫的基本步骤，以煎蛋网的图片下载为例，展示了如何编写脚本实现批量下载。然而，由于网站的限制，脚本存在漏图现象，并且在处理输出信息时可能遇到文字编码问题。

摘要由CSDN通过智能技术生成

对煎·····蛋网的图片进行批量下载，但此脚本下载会漏图（与该网站的限制有关）.输出信息时可能存在文字编码问题

#!usr/bin/env python
# -*- coding:utf-8 -*-

# URl:http://jandan.net/ooxx/page-+str(1-3000)+#comments
import multiprocessing
import os
import random
import urllib
import urllib2
from multiprocessing import Pool, Queue, cpu_count

import BeautifulSoup
import re
import requests


# r=requests.get("//ww3.sinaimg.cn/bmiddle/7c8e8afbjw1dh9yimwp4xj.jpg")
# urllib.urlopen("//ww3.sinaimg.cn/bmiddle/7c8e8afbjw1dh9yimwp4xj.jpg")

# 保存一张图片
import time
import socket

timeout = 10
socket.setdefaulttimeout(timeout)

#获得URL并保存图片
'''
def saveImg(imageURL, fileName):
    try:
        u = urllib2.urlopen(imageURL, timeout=10)
        data = u.read()
        f = open(fileName, 'wb')
        f.write(data)
        f.close()
    except:
        print u"图片地址有问题"
'''

def saveImg(imageURL,pageIndex,fileName):
    try:
        # 选择随机的User-Agent，以做辨别 Referer的作用
        user_agent = [
            'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
            'Opera/9.25 (Windows NT 5.1; U; en)',
            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

最低0.47元/天解锁文章

qq_30717683

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫初探

对煎·····蛋网的图片进行批量下载，但此脚本下载会漏图（与该网站的限制有关）.输出信息时可能存在文字编码问题#!usr/bin/env python# -*- coding:utf-8 -*-# URl:http://jandan.net/ooxx/page-+str(1-3000)+#commentsimport multiprocessingimport osimport random
复制链接

扫一扫

专栏目录