爬虫高级技巧

最新推荐文章于 2023-07-20 16:45:21 发布

DatCat

最新推荐文章于 2023-07-20 16:45:21 发布

阅读量644

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/qq_33095515/article/details/100718665

版权

设置程序休止时间

n为你想要实现的时间间隔

import time
time.sleep(n)

设置代理

#使用urllib.request的两个方法进行代理的设置
proxy = urlrequest.ProxyHandler({
   'https':'47.91.78.201:3128'})
opener = urlrequest.build_opener(proxy)

User-Agent

网站是可以识别你是否在使用Python进行爬取，需要你在发送网络请求时，把header部分伪装成浏览器。
opener.addheaders = [(‘User-Agent’,’…’)]
用不同浏览器访问的header字符串，放入上述代码省略号的部分即可。
常用的浏览器header有：

实例

示例：Place Pulse Google街景图爬取
课程参考代码：
1.准备工作:载入包,定义存储目录,连接API

import urllib.request as urlrequest
import time
import random
IMG_PATH = './imgs/{}.jpg'
DATA_FILE = './data/votes.csv'
STORED_IMG_ID_FILE = './data/cached_img.txt'
STORED_IMG_IDS = set

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DatCat

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫高级技巧

设置程序休止时间n为你想要实现的时间间隔import timetime.sleep(n)设置代理#使用urllib.request的两个方法进行代理的设置proxy = urlrequest.ProxyHandler({'https':'47.91.78.201:3128'})opener = urlrequest.build_opener(proxy)User-Agent网...
复制链接

扫一扫