Python3伪装浏览器爬虫读取网页内容

最新推荐文章于 2023-06-06 16:28:38 发布

原来是这样子

最新推荐文章于 2023-06-06 16:28:38 发布

阅读量795

点赞数

分类专栏： python 文章标签： python 爬虫网页解析

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

有些网站加了保护，CSDN、***、等等很多网站都这样，这就必须要伪装浏览器正常访问了，类似蜘蛛爬虫一样，那么只有给代码加上一个Header，再试试读取HTML。

声明：以下代码在Python 3.3中编写调试完成！

原来想这样实现:

?

1

2

3

4

`import` `urllib.request`

`url` `=` `"http://www.oschina.net/"`

`data` `=` `urllib.request.urlopen(url).read()`

`print` `(data)`

后来是这样：

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

`'''`

`Created on 2013-1-27`

`@author: isaced`

`'''`

`import` `urllib.request`

`url` `=` `"http://www.oschina.net/"`

`headers` `=` `(` `'User-Agent'` `,` `'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'` `)`

`opener` `=` `urllib.request.build_opener()`

`opener.addheaders` `=` `[headers]`

`data` `=` `opener.` `open` `(url).read()`

`print` `(data)`

原来是这样子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python3伪装浏览器爬虫读取网页内容

原文链接有些网站加了保护，CSDN、***、等等很多网站都这样，这就必须要伪装浏览器正常访问了，类似蜘蛛爬虫一样，那么只有给代码加上一个Header，再试试读取HTML。声明：以下代码在Python 3.3中编写调试完成！原来想这样实现:?1234import
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。