京东手机信息爬取（全部手机）

最新推荐文章于 2024-02-23 13:38:03 发布

Norni

最新推荐文章于 2024-02-23 13:38:03 发布

阅读量443

点赞数

文章标签： python java 小程序 nginx ajax

本文链接：https://blog.csdn.net/Norni/article/details/115714634

版权

本文介绍了一个使用Python内置模块urllib编写的单线程爬虫，旨在熟悉urllib库的常见函数，如urllib.build_opener()和urllib.request.urlopen()等。爬虫主要任务是抓取京东手机页面的信息，通过random.uniform()调整请求频率，同时能够保存图片链接。作者提醒该爬虫仅供学习参考，不适用于商业目的，并提供了多线程爬虫的参考资料。

摘要由CSDN通过智能技术生成

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

仅学习参考，不可用于商业用途

version_0

说明：单线程爬虫，使用模块为python自带模块,包括urllib，json等

　　　写这个爬虫是为了熟悉urllib的基本使用，包括常用函数.urllib.build_opener()、urllib.parse.urljoin、urllib.parse.quote、urllib.request.urlopen

　　　urllib.request.install_opener()、http.cookiejar、urllib.request.HTTPHandler()、urllib.request.HTTPCookiesProcessor()

　　　请求频率通过random.uniform()，随机选取

　　　本爬虫目前只支持获取手机页面的信息。

　　　所有的图片信息，以链接方式保存。可以使用urllib.request.urlretrieve()下载。

　　　若要构造多线程爬虫，请参考：https://www.cnblogs.com/nuochengze/p/12861358.html

效果预览：

源码如下：

from urllib import request
from urllib import parse
from urllib import error
from http import cookiejar
import re
from pprint import pprint
import time
import random
import json


class JdPhoneInfo(object):
    def __init__(self,key_word):
        self.key_word = key_word

    def get_url(self,key_word,page_num