第一个网页爬虫(python3版本)

最新推荐文章于 2024-07-17 23:50:36 发布

csdn__DRAGON

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量351

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/CSDN__DRAGON/article/details/78727994

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

直接上代码

首先说明下，为什么要加入头部？

因为爬取时最正式的做法是仿照http的过程，在用爬虫获取网页的时候，加入头部，伪装成浏览器。Http 其实就是请求/响应模式，永远都是客户端向服务端发送请求，然后服务端再返回响应。

有一个问题就是头部改怎么加？可以打开你的浏览器，按F12，有的是Fn+F12

打开开发者工具模式后，进入随便一个网页，如下图：

选择Network，然后选择name中任一项，找到Request Headers中的User-Agent，复制下来就是头部。

import urllib.request
#网址
url = r'http://douban.com'
#加入请求头，有一些网页没有头部是不能访问的，会返回 403错误
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
#请求
req = urllib.request.Request(url=url,headers=headers)
#响应的爬取结果
res = urllib.request.urlopen(req)
#设置解码方式
html = res.read().decode('utf-8')
#打印结果
print(html)

csdn__DRAGON

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一个网页爬虫(python3版本)

直接上代码首先说明下，为什么要加入头部？因为爬取时最正式的做法是仿照http的过程，在用爬虫获取网页的时候，加入头部，伪装成浏览器。Http 其实就是请求/响应模式，永远都是客户端向服务端发送请求，然后服务端再返回响应。有一个问题就是头部改怎么加？可以打开你的浏览器，按F12，有的是Fn+F12打开开发者工具模式后，进入随便一个网页，如下图：选择Network，然
复制链接

扫一扫

专栏目录