Python爬虫入门记（2）- 网络代理（伪装）

最新推荐文章于 2021-07-08 23:24:04 发布

Melancholie、

最新推荐文章于 2021-07-08 23:24:04 发布

阅读量386

点赞数

文章标签： Python爬虫用户代理伪装网页内容抓取异常处理

本文链接：https://blog.csdn.net/qq_45958577/article/details/115338425

版权

二、用户代理（伪装）

1. 代码

# 得到指定一个URL的网页内容
def askURL(url):
    # 用户代理，报时告诉豆瓣服务器我们是什么浏览器（伪装）(告诉浏览器我们可以接受什么信息）
    # 模拟头部，内容可以更多，下面会说head的内容由来
    head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"}
    # 实现最基本的请求的发起，加入headers等信息，利用用urllib.requst库中的Request类来构造请求
    request = urllib.request.Request(url, headers=head)
    html = ""
    # try-except: python的异常处理
    try:
    	# 一般下面两句代码和上面request那行代码一起使用
    	# urlopen用于打开一个远程的url连接，,对request请求得到响应结果
    	# 大多数情况下，浏览器的默认编码方式是utf-8，因此我们设置服务器返回的数据的编码方式也是utf-8即可
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        # 可以打印爬下来的网页源代码print(html) 
        # except：用urllib.error库的URLError找出相应直接打印出错原因，泛用性较强
    except urllib.error.URLError as e:
    	# hasattr() 函数用于判断对象是否包含对应的属性
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    # 返回网页源代码
    return html

2. 查看网页源代码，获取头部信息

打开某一网页，按 F12 或者 fn+F12（如果网页有保护机制，可以打开浏览器的开发者工具），点开Network板块，左上角的红点是下方进程显示的开关。
刷新网页，点击红点暂停。
选择最开始的进程。
单机那个name，右侧会出现详细信息，查看Headers，可以选择复制需要伪装的头部信息，本例用的是Request Headers中的User-Agent，也可以用更多的信息。

3. 对于懒得伪装或者爬下的代码有误的情况

直接打开想要爬取的网页，直接查看源代码，复制到 txt 本文文件中，在代码中直接赋值使用。
代码如下：（注意打开文件的位置，这里是和代码放在同一目录下）

   f = open('data.txt', encoding='utf-8')  # 注意encoding的使用
   urls = f.read()

Melancholie、

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫