Python爬虫进阶——urllib模块使用案例【淘宝】

最新推荐文章于 2024-03-21 08:34:54 发布

WoLykos

最新推荐文章于 2024-03-21 08:34:54 发布

阅读量851

点赞数 1

分类专栏： Python爬虫网页前端技术 # 网络库之urllib+ requests

本文链接：https://blog.csdn.net/WoLykos/article/details/103632864

版权

Python爬虫同时被 3 个专栏收录

13 篇文章 9 订阅

订阅专栏

网络库之urllib+ requests

7 篇文章 0 订阅

订阅专栏

网页前端技术

5 篇文章 0 订阅

订阅专栏

Python爬虫基础——HTML、CSS、JavaScript、JQuery网页前端技术
Python爬虫基础——正则表达式
Python爬虫基础——re模块的提取、匹配和替换
Python爬虫基础——XPath语法的学习与lxml模块的使用【CSDN】
Python爬虫进阶——JsonPath使用案例
Python爬虫进阶——urllib模块使用案例【淘宝】
Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】
Python爬虫进阶——Request对象之post请求案例分析【百度翻译】
Python爬虫实战—— Request对象之header伪装策略
Python爬虫实战——反爬策略之代理IP【无忧代理】
Python爬虫实战——反爬策略之模拟登录【CSDN】
Python爬虫实战——反爬机制的解决策略【阿里】
Python爬虫总结——常见的报错、问题及解决方案

很多时候呢，我们都是读取本地HTML文件来进行爬虫练手，但每次都要手打不同的HTML明显耗时耗力；
还有些小伙伴不喜欢F12，偏偏喜欢在Pycharm中查看HTML的源代码；
……

难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗？
不不不，我们还有Python的第三方库——urllib。
urllib模块是模拟浏览器去访问URL地址，然后拿到服务器响应回来的数据，也就是整个HTML文件。

代码如下：

import urllib.request as ur

# urlopen返回的是一个HTTPResponse对象，需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 写入文件，'wb'为写入二进制文件
with open('tb.html', 'wb') as f:
    f.write(ret)