爬虫Requests 1.0版本（最容易的User-Agent 伪装）先从豆瓣开始尝试爬去学习

最新推荐文章于 2024-08-18 13:26:49 发布

糖炒板栗子～

最新推荐文章于 2024-08-18 13:26:49 发布

阅读量466

点赞数

分类专栏：笔记文章标签： python 数据挖掘大数据

本文链接：https://blog.csdn.net/PJCDH/article/details/115152926

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.首先爬虫需要导入requests库;

import requests

2.接着我们利用豆瓣网址（https://www.douban.com/）创建一个URL对象;

url = 'https://www.douban.com/'

2.1直接用requests.get（）方法爬取；

import requests
url = 'https://www.douban.com/'
data = requests.get(url）

结果展示；
在这里插入图片描述
没有任何输出结果，说明爬虫被豆瓣捕捉到了，爬取失败。（不过还是有很多免费网站可以爬的，例如你们学校的官网哈哈哈哈哈…）；
2.2现在把UA伪装一下，尝试重新爬取；

import requests

url = 'https://www.douban.com/'

#UA（User-Agent）伪装0.1

headers = {'User-Agent' : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"}
data = requests.get(url,headers = headers)
print(data.text)