python 利用浏览器代理user-agent访问方式,实现网页爬虫

python 利用浏览器代理访问方式,实现网页爬虫

利用爬虫代码抓取网页内容时,容易被网站管理员发现然后被拒绝访问,因此我们可以在代码中添加浏览器标识,模拟为浏览器访问网站,并且设置延时抓取,这样不会一次抓取过快,防止被封ip。

import requests
import lxml
from bs4 import BeautifulSoup
#一般只用到requests和time模块
# 设置延时环节防封IP,如每3秒抓取一次
import time
time.sleep(3)
# 代理浏览器访问方式
# 打开浏览器,按F12进入开发者模式,点Network,再点XHR,原页面按ctrl R后,选择参数User-Agent,复制它获得headers参数
url = 'https://www.sina.com.cn/'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/78.0.3904.87 Safari/537.36'}
response = requests.get(url, headers=headers)
strhtml=response.content.decode('utf-8')
print (strhtml)
#以上代码即可
#如下代码功能为,获得新浪首页部分小标题及其链接
listhtml=BeautifulSoup(strhtml,'lxml')
data=listhtml.select('#video_one > div > ul > li > a')
print (data)
for item in data:
    result={
        'tittle':item.get_text(),
        'link':item.get('href')
    }
    print (result['tittle'],'\n',result['link'])

此方法只能用于一般的爬虫,更大的爬虫得建立自己的ip池,通过代理IP爬取网页,那才是最好的方法!
代理IP方法有时间再更新

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值