Python3爬虫学习笔记1.1——urllib官方库的使用

最新推荐文章于 2024-02-16 11:01:36 发布

王凯盛

最新推荐文章于 2024-02-16 11:01:36 发布

阅读量1.1k

点赞数

分类专栏： Python爬虫文章标签： python 爬虫库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_31211873/article/details/52109225

版权

本文介绍了Python3使用urllib库进行网页爬取的基本步骤，包括请求网页、处理编码问题以及构造Request对象以模拟浏览器行为。通过实例展示了如何爬取知乎首页并解决汉字编码错误的问题，为后续的模拟登录和cookie学习打下基础。

摘要由CSDN通过智能技术生成

欢迎捧场，上篇我们对什么是爬虫有一个大概的了解，那么我们可以用爬虫来做什么呢？爬虫又是怎么做到的呢？我们一起学习吧。

1.扒个网页压压惊

作为一个知乎的小白用户，平时的任务基本上就是刷刷问题点点赞什么的，今天我们爬一下知乎，应该不会出什么幺蛾子吧。

import urllib.request
resp=urllib.request.urlopen('http://www.zhihu.com')
print(resp.read())

写完了之后运行一下，你就会看见这“三行情书”爬下来的一个知乎首页，三行爬虫。曾经在我找爬虫资料的是看见了不止一个人说自己学习爬虫就是为了“哄妹子”，结果发现，爬虫比妹子好玩。2333，我还是选择妹子。运行结果如下：
知乎首页源码
一不小心知乎首页的源码就显示在你的终端了，就是这么神奇。

2.三行爬虫代码分析

对于第一行，引用的官方库urllib.request，不解释。
第二行代码，我们调用的是urllib.request库里面的urlopen方法（Python3对urllib库做了整合，你有可能看见Python2.X中的写法

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

王凯盛 CSDN认证博客专家 CSDN认证企业博客

码龄9年

9: 原创

41万+: 周排名

158万+: 总排名

1万+: 访问

: 等级

292: 积分

12: 粉丝

7: 获赞

8: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

我特么考上了
qq_45696587: 我也是三本，机械跨考燕大计算机，能私信问你一些关于专业课的事情吗？
我特么考上了
山海喜欢吃菠萝: 同三本，19考研329没办法调剂，再努力一年
Python3爬虫学习笔记2.1——爬文字-糗事百科
Alladins: 输出出现乱码请问为什么？
Python3爬虫学习笔记1.2——模拟登录
zyhhh123: 你好我在改变标准输出编码时报错不知道是为什么大神可以告诉我吗输入：sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') 报错：AttributeError: 'OutStream' object has no attribute 'buffer'

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。