python爬虫
Hkpery
这个作者很懒,什么都没留下…
展开
-
python爬虫框架scrapy入门
对于scrapy框架的初步了解 Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。 Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(原创 2021-08-11 18:55:56 · 231 阅读 · 0 评论 -
python异常处理(爬虫)
python异常处理篇 方法1 #们抓取网页一般需要对 headers(网页头信息)进行模拟,这时候需要使用到 urllib.request.Request 类 from urllib.urllib import Request,urlopen from urllib.error import URLError,HTTPError req = Request(url) try: response = urlopen(req) except HTTPError as c: print('The serve原创 2021-08-05 17:52:22 · 243 阅读 · 0 评论 -
python爬虫实例-cat_picture_download
如果你也喜欢猫猫(>ω<)喵 import urllib.request import random import time height = random.randint(1,1024) weight = random.randint(1,1024) new_url='http://placekitten.com/'+str(height)+'/'+str(weight) ip_list=['14.116.213.100:8081','14.18.109.42:8081','47.10原创 2021-08-05 17:38:33 · 1459 阅读 · 0 评论 -
python爬虫实例
动态爬取网页图片 纯原码 import urllib.request import os import random import re """ def url_open(url): ip_list=['14.116.213.100:8081','14.18.109.42:8081','47.107.128.69:888','47.108.155.96:80','183.7.29.244:9999','36.57.68.239:8888','171.15.65.120:8080']原创 2021-08-05 17:31:50 · 986 阅读 · 0 评论