python urlopen_Python爬虫教程-02-使用urlopen

最新推荐文章于 2024-03-11 22:34:46 发布

媒小匣

最新推荐文章于 2024-03-11 22:34:46 发布

阅读量147

点赞数

文章标签： python urlopen

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35315019/article/details/113964515

版权

Spider-02-使用urlopen

做一个最简单的python爬虫，使用爬虫爬取：智联招聘某招聘信息的DOM

urllib

包含模块urllib.request：打开和读取urls

urllib.error：包含urllib.request产生的常见错误，使用try捕捉

urllib.parse：包含解析url的方法

urllib.robotparse：解析robots.txt文件

robots：机器人协议，放在网站的开头，供给爬虫读取，当爬虫读到robots之后，就知道那些是允许爬取的数据，哪些是禁止爬取的数据

(爬虫道德问题：1.不许过频繁爬取 2.不许爬取禁止内容)

原文：https://blog.csdn.net/qq_40147863/article/details/81434882blog.csdn.net

案例v1使用PyCharm开发工具，配置python解释器，创建python文件)

# py01v1.py

from urllib import request

# 使用urllib.request请求一个网页的内容，并把内容打印出来

if __name__ == '__main__':

# 定义需要爬的页面

url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"

# 打开相应url并把页面作为返回

rsp = request.urlopen(url)

# 按住Ctrl键不送，同时点击urlopen，可以查看文档，有函数的具体参数和使用方法

# 把返回结果读取出来

html = rsp.read()

print(html)

上面简单几行代码就可以爬取页面的HTML代码了

右键运行，截图如下

但是，我们爬取到的代码是不能自行显示中文的，需要解码处理

# py02v1.py

from urllib import request

if __name__ == '__main__':

url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"

rsp = request.urlopen(url)

# 按住Ctrl键不送，同时点击urlopen，可以查看文档，有函数的具体参数和使用方法

html = rsp.read()

# 解码

html = html.decode()

print(html)

解码后效果：

恭喜你，最简单的爬虫就已经学会啦！

如果运行失败，可能是

1.【爬取的连接失效】，更换最新的地址就可以了

2.【Python环境问题】，这里不做仔细介绍，请自行【百度】解决，也可联系小编

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。