爬虫浏览器伪装

本文介绍了Python爬虫中如何进行浏览器伪装,通过引入urllib.request和re模块,设置headers来模拟浏览器行为,避免被网站识别为爬虫。首先定义URL,然后创建带有伪装headers的opener,并安装为全局opener。接着,使用正则表达式抓取首页信息,进一步获取并下载每个文章链接的内容。提供完整代码示例。
摘要由CSDN通过智能技术生成

先引入模块 urllib.request和re

import requests
import re

定义一个url链接

url="http://blog.csdn.net"

浏览器伪装,定义一个headers头

headers=("user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400")   

将headers添加到真实的报头中去,首先建立一个opener对象,再将其添加进去

opener=urllib.request.build_opener()
opener.addheaders=[headers]

将其安装为全局(不然就只能用opener打开)

urllib.request.install_opener(opener)

然后获取首页信息

data=urllib
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值